数据集:

Gabriel/citesum_swe

英文

Swedish Citesum数据集数据卡

瑞典Citesum数据集仅经过机器翻译,以改善在瑞典摘要任务上的下游微调。

数据集摘要

具体详情请参阅原始英文版本: https://huggingface.co/datasets/citesum

论文

https://arxiv.org/abs/2205.06207

作者

Yuning Mao,Ming Zhong,Jiawei HanUniversity of Illinois Urbana-Champaign{yuningm2,mingz5,hanj}@illinois.edu

数据详情

  • src(字符串):源文本。论文的长描述
  • tgt(字符串):目标文本。论文的TLDR摘要
  • paper_id(字符串):论文的唯一标识符
  • title(字符串):论文标题
  • discipline(字典):
    • venue(字符串):论文发表的地点(会议)
    • journal(字符串):论文发表的期刊
    • mag_field_of_study(列表[str]):论文所属的科学领域

数据拆分

瑞典xsum数据集遵循与原始英文版本相同的拆分,并具有3个拆分:train,validation和test。

Dataset Split Number of Instances in Split
Train 83,304
Validation 4,721
Test 4,921