数据集:

potsawee/xsum_eng2thai

英文

"xsum_eng2thai ????" 数据集卡

  • 此数据集基于 XSum .
  • 摘要是通过使用 Meta 的 NLLB-200-3.3B 将英文(原始 XSum)翻译成泰语的。
  • 该数据集用于跨语言摘要生成(英语文档 -> 泰语摘要)。

数据字段

  • id: BBC 文章的 ID。
  • document: 包含新闻文章正文的字符串。
  • summary: 包含文章的翻译摘要的字符串。

数据结构

{
    "id": "29750031",
    "document": "news article in English",
    "summary": "summary in Thai"
}

数据拆分

训练/验证/测试 = 204045/11332/11334