数据集:

Gabriel/cnn_daily_swe

英文

Swedish CNN Dailymail 数据集数据卡

Swedish CNN/DailyMail 数据集只是经过机器翻译,以改进在瑞典摘要任务的微调。

数据集摘要

在原始的英文版本中阅读完整详情: https://huggingface.co/datasets/cnn_dailymail

数据字段

  • id:包含从获取故事的网址的十六进制格式化SHA1哈希的字符串
  • article:包含新闻文章正文的字符串
  • highlights:包含文章作者撰写的文章要点的字符串

数据拆分

瑞典 CNN/DailyMail 数据集遵循与原始英文版本相同的拆分,并且有三个拆分:训练集、验证集和测试集。

Dataset Split Number of Instances in Split
Train 287,113
Validation 13,368
Test 11,490