数据集:

TurkuNLP/xlsum-fi

英文

Dataset Card for "XL-Sum-FI"

数据集简介

该数据集是XLSum数据集英文部分的DeepL机器翻译结果: https://github.com/csebuetnlp/xl-sum 。当前版本仅包含全文长度至多是摘要的10倍以下的示例。我们以后可能会翻译更多内容。

支持的任务和排行榜

语言

  • 芬兰语

数据集结构

数据实例

下面是芬兰语数据集的一个示例,以JSON格式给出。

{
  "id": "technology-17657859",
  "url": "https://www.bbc.com/news/technology-17657859",
  "title": "Walesin myrskytuulien vuoksi annettu säävaroitus",
  "summary": "Tuulet voivat yltyä Walesissa myrskytuuliin, ja myrskysää on luvassa koko maahan tällä viikolla.",
  "text": "Met Office on antanut Walesin ja Englannin kattavan keltaisen tuulivaroituksen keskiviikkoillasta kello 21.00 GMT alkaen. Matkustaminen ja sähkönjakelu todennäköisesti häiriintyvät, ja varoitus on voimassa torstaihin kello 15:00 asti. Puuskat ovat todennäköisesti nopeudeltaan 88 kilometriä tunnissa, ja rannikoilla ja kukkuloilla puuskat voivat nousta jopa 70 kilometriin tunnissa, ja lisäksi voi esiintyä rankkasateita ja myrskyisiä sadekuuroja."
}

数据字段

  • 'id':表示文章ID的字符串,与XLSum数据集原始数据对应
  • 'url':表示文章URL的字符串,与原始XLSum数据集中的相同
  • 'title':包含文章标题的字符串,机器翻译成芬兰语
  • 'summary':包含文章摘要的字符串,机器翻译成芬兰语
  • 'text':包含文章内容的字符串,机器翻译成芬兰语

数据拆分

遵循XLSum数据集的拆分方式。

数据集创建

策划理由

源数据

BBC News

初始数据收集和规范化

Detailed in the paper 本数据集仅使用英文作为源语言,并且仅保留全文长度相对于摘要最多10倍的示例。这个10倍的截断值是在英文上自然测量的。

谁是源语言的生成者?

Detailed in the paper

注释

Detailed in the paper 使用DeepL进行从英文到芬兰语的机器翻译。

注释过程

Detailed in the paper

谁是注释者?

Detailed in the paper

个人和敏感信息

More information needed

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

由于DeepL的条款和条件,本数据集禁止用于任何机器翻译工作,包括机器翻译系统的开发和评估。总体上,我们希望您不要将原始英文数据与翻译配对,除非在与机器翻译无关的研究中使用,以避免侵犯条款和条件。

其他信息

数据集策划者

授权信息

本代码库的内容仅限于非商业研究目的,受 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 的约束。数据集内容的版权属于原始版权持有人。

引用信息

如果您使用了任何数据集、模型或代码模块,请引用下面的原始XL-Sum论文,并感谢Filip Ginter和TurkuNLP组提供芬兰语机器翻译版本。

@inproceedings{hasan-etal-2021-xl,
    title = "{XL}-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages",
    author = "Hasan, Tahmid  and
      Bhattacharjee, Abhik  and
      Islam, Md. Saiful  and
      Mubasshir, Kazi  and
      Li, Yuan-Fang  and
      Kang, Yong-Bin  and
      Rahman, M. Sohel  and
      Shahriyar, Rifat",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.413",
    pages = "4693--4703",
}

贡献

感谢XLSum数据集的创建者!