数据集:

Gabriel/xsum_swe

英文

Swedish Xsum数据集的数据卡片

Swedish xsum数据集仅进行了机器翻译,以改善在瑞典摘要任务的下游微调。

数据集摘要

阅读有关完整细节的原始英语版本: https://huggingface.co/datasets/xsum

数据字段

  • id:包含从提取故事的网址的十六进制格式的SHA1哈希的字符串
  • document:包含新闻文章内容的字符串
  • summary:包含由文章作者编写的文章摘要的字符串

数据拆分

Swedish xsum数据集遵循与原始英语版本相同的拆分,并具有3个拆分:训练,验证和测试。

Dataset Split Number of Instances in Split
Train 204,045
Validation 11,332
Test 11,334