数据集:

indonlp/NusaX-MT

英文

NusaX-MT 数据集卡片

数据集摘要

NusaX 是一个高质量的多语言平行语料库,包含了12种语言,印尼语、英语和10种印尼当地语言,分别是亚齐语、巴厘语、班贾瑞斯语、布吉语、马都拉语、民丹语、爪哇语、恩达語、巽他语和托巴巴塔克语。NusaX-MT 是一个用于训练和基准测试跨10种印尼当地语言+印尼语和英语的机器翻译模型的平行语料库。数据以CSV格式呈现,每种语言对应一列。

支持的任务和排行榜

  • 印尼语言的机器翻译

语言

所有可能的语言对如下:

  • ace: 亚齐语,
  • ban: 巴厘语,
  • bjn: 班贾瑞斯语,
  • bug: 布吉语,
  • eng: 英语,
  • ind: 印尼语,
  • jav: 爪哇语,
  • mad: 马都拉语,
  • min: 民丹语,
  • nij: 恩达語,
  • sun: 巽他语,
  • bbc: 托巴巴塔克语,

数据集创建

策划理由

尽管印度尼西亚有700多种语言,但在印尼语言的自然语言处理研究和资源方面存在不足。考虑到这一点,我们创建了这个数据集,以支持印尼的少数语言的未来研究。

数据来源

初始数据收集和标准化

NusaX-MT 是一个用印度尼西亚语进行机器翻译的数据集,由母语使用者专家进行翻译。

谁是源语言的生产者?

数据是由人类(母语使用者)产生的。

标注

标注过程

NusaX-MT 是由SmSA衍生而来的,SmSA是印尼情感分析中最大的公开数据集。它包含来自多个在线平台的评论。为了确保数据集的质量,我们通过人工审核所有句子,删除了任何辱骂性言论和个人身份信息。为了保持标签分布的平衡,我们通过分层抽样随机选择了1,000个样本,然后将其翻译成相应的语言。

标注者是谁?

这些注解者既是印尼语的母语使用者,也是相应语言的母语使用者。注解者根据翻译的样本数量进行补偿。

个人和敏感信息

已删除个人信息。

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

NusaX 是从评论文本创建的,这些数据源可能包含一些偏见。

其他已知限制

没有其他已知限制。

附加信息

许可信息

CC-BY-SA 4.0。

署名 - 您必须给予适当的署名,提供指向许可证的链接,并指示是否对内容进行了更改。您可以以任何合理的方式这样做,但是不能以任何方式暗示许可人赞同您或您的使用。

相同方式共享 - 如果您重新组合、转换或者基于原创内容进行创作,您必须将自己的贡献以与原来许可证相同的方式分发。

没有附加限制 - 您不得应用法律条款或技术措施来法律限制他人使用许可证允许的任何操作。

请联系作者以获取有关数据集的任何信息。

引用信息

@misc{winata2022nusax,
      title={NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages},
      author={Winata, Genta Indra and Aji, Alham Fikri and Cahyawijaya,
      Samuel and Mahendra, Rahmad and Koto, Fajri and Romadhony,
      Ade and Kurniawan, Kemal and Moeljadi, David and Prasojo,
      Radityo Eko and Fung, Pascale and Baldwin, Timothy and Lau,
      Jey Han and Sennrich, Rico and Ruder, Sebastian},
      year={2022},
      eprint={2205.15960},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @afaji 添加了这个数据集。