"xsum_eng2thai ????" 数据集卡
- 此数据集基于
XSum
.
- 摘要是通过使用 Meta 的
NLLB-200-3.3B
将英文(原始 XSum)翻译成泰语的。
- 该数据集用于跨语言摘要生成(英语文档 -> 泰语摘要)。
数据字段
- id: BBC 文章的 ID。
- document: 包含新闻文章正文的字符串。
- summary: 包含文章的翻译摘要的字符串。
数据结构
{
"id": "29750031",
"document": "news article in English",
"summary": "summary in Thai"
}
数据拆分
训练/验证/测试 = 204045/11332/11334