数据集:
SZTAKI-HLT/HunSum-1
HunSum-1 数据集是一个包含超过1.1M个独特新闻文章以及引言和其他元数据的匈牙利语数据集。该数据集包含来自9个主要匈牙利新闻网站的文章。
HunSum-1 数据集有3个拆分:train(训练集)、validation(验证集)和test(测试集)。
Dataset Split | Number of Instances in Split |
---|---|
Train | 1,144,255 |
Validation | 1996 |
Test | 1996 |
如果您使用了我们的数据集,请引用以下论文:
@inproceedings {HunSum-1, title = {{HunSum-1: an Abstractive Summarization Dataset for Hungarian}}, booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)}, year = {2023}, publisher = {Szegedi Tudományegyetem, Informatikai Intézet}, address = {Szeged, Magyarország}, author = {Barta, Botond and Lakatos, Dorina and Nagy, Attila and Nyist, Mil{\'{a}}n Konor and {\'{A}}cs, Judit}, pages = {231--243} }