数据集:

SZTAKI-HLT/HunSum-1

英文

HunSum-1 数据集卡片

数据集描述

数据集总结

HunSum-1 数据集是一个包含超过1.1M个独特新闻文章以及引言和其他元数据的匈牙利语数据集。该数据集包含来自9个主要匈牙利新闻网站的文章。

支持的任务和排行榜

  • 'summarization'(摘要生成)
  • 'title generation'(标题生成)

数据集结构

数据字段

  • uuid :包含唯一标识符的字符串
  • article :包含新闻文章正文的字符串
  • lead :包含文章引言的字符串
  • title :包含文章标题的字符串
  • url :包含文章URL的字符串
  • domain :包含URL域名的字符串
  • date_of_creation :包含文章创建日期的时间戳
  • tags :包含文章标签的序列

数据拆分

HunSum-1 数据集有3个拆分:train(训练集)、validation(验证集)和test(测试集)。

Dataset Split Number of Instances in Split
Train 1,144,255
Validation 1996
Test 1996

引用

如果您使用了我们的数据集,请引用以下论文:

@inproceedings {HunSum-1,
    title = {{HunSum-1: an Abstractive Summarization Dataset for Hungarian}},
    booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
    year = {2023},
    publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
    address = {Szeged, Magyarország},
    author = {Barta, Botond and Lakatos, Dorina and Nagy, Attila and Nyist, Mil{\'{a}}n Konor and {\'{A}}cs, Judit},
    pages = {231--243}
}