数据集:
TurkuNLP/xlsum-fi
该数据集是XLSum数据集英文部分的DeepL机器翻译结果: https://github.com/csebuetnlp/xl-sum 。当前版本仅包含全文长度至多是摘要的10倍以下的示例。我们以后可能会翻译更多内容。
下面是芬兰语数据集的一个示例,以JSON格式给出。
{ "id": "technology-17657859", "url": "https://www.bbc.com/news/technology-17657859", "title": "Walesin myrskytuulien vuoksi annettu säävaroitus", "summary": "Tuulet voivat yltyä Walesissa myrskytuuliin, ja myrskysää on luvassa koko maahan tällä viikolla.", "text": "Met Office on antanut Walesin ja Englannin kattavan keltaisen tuulivaroituksen keskiviikkoillasta kello 21.00 GMT alkaen. Matkustaminen ja sähkönjakelu todennäköisesti häiriintyvät, ja varoitus on voimassa torstaihin kello 15:00 asti. Puuskat ovat todennäköisesti nopeudeltaan 88 kilometriä tunnissa, ja rannikoilla ja kukkuloilla puuskat voivat nousta jopa 70 kilometriin tunnissa, ja lisäksi voi esiintyä rankkasateita ja myrskyisiä sadekuuroja." }
遵循XLSum数据集的拆分方式。
Detailed in the paper 本数据集仅使用英文作为源语言,并且仅保留全文长度相对于摘要最多10倍的示例。这个10倍的截断值是在英文上自然测量的。
谁是源语言的生成者?Detailed in the paper 使用DeepL进行从英文到芬兰语的机器翻译。
注释过程 谁是注释者?由于DeepL的条款和条件,本数据集禁止用于任何机器翻译工作,包括机器翻译系统的开发和评估。总体上,我们希望您不要将原始英文数据与翻译配对,除非在与机器翻译无关的研究中使用,以避免侵犯条款和条件。
本代码库的内容仅限于非商业研究目的,受 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 的约束。数据集内容的版权属于原始版权持有人。
如果您使用了任何数据集、模型或代码模块,请引用下面的原始XL-Sum论文,并感谢Filip Ginter和TurkuNLP组提供芬兰语机器翻译版本。
@inproceedings{hasan-etal-2021-xl, title = "{XL}-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages", author = "Hasan, Tahmid and Bhattacharjee, Abhik and Islam, Md. Saiful and Mubasshir, Kazi and Li, Yuan-Fang and Kang, Yong-Bin and Rahman, M. Sohel and Shahriyar, Rifat", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.413", pages = "4693--4703", }
感谢XLSum数据集的创建者!