数据集:

albertvillanova/sat

英文

SAT数据集卡片

数据集摘要

SAT(样式增强翻译)数据集包含大约330万英越文对。

支持的任务和排行榜

  • 机器翻译

语言

数据集中包含以下语言:

  • 越南语(vi)
  • 英语(en)

数据集结构

数据实例

{
  'translation': {
    'en': 'Rachel Pike : The science behind a climate headline',
    'vi': 'Khoa học đằng sau một tiêu đề về khí hậu'
  }
}

数据字段

  • translation:
    • en:英语的平行文本。
    • vi:越南语的平行文本。

数据分割

数据集分为“训练”和“测试”。

train test
Number of examples 3359574 7221

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

未知。

引用信息

未知。

贡献

感谢 @albertvillanova 添加此数据集。