数据集:

indonlp/NusaX-senti

英文

NusaX-Senti数据集描述

数据集概述

NusaX是一个高质量的多语言平行语料库,涵盖12种语言,包括印度尼西亚语、英语和10种印度尼西亚当地语言,即亚齐语、巴厘语、班雅里语、布吉语、马都雷斯语、米南卡保语、爪哇语、恩嘉乌语、巽他语和陶巴巴塔克语。NusaX-Senti是一个为10种印度尼西亚当地语言+印度尼西亚语和英语提供3个标签(积极、中性、消极)情感分析的数据集。

支持的任务和评测

  • 印尼语情感分析

语言

  • ace: 亚齐语,
  • ban: 巴厘语,
  • bjn: 班雅里语,
  • bug: 布吉语,
  • eng: 英语,
  • ind: 印度尼西亚语,
  • jav: 爪哇语,
  • mad: 马都雷斯语,
  • min: 米南卡保语,
  • nij: 恩嘉乌语,
  • sun: 巽他语,
  • bbc: 陶巴巴塔克语,

数据集创建

策划理由

尽管印度尼西亚拥有700多种语言,但在印尼语言的NLP研究和资源方面存在不足。出于这个考虑,我们创建了这个数据集,以支持对印度尼西亚语言中代表性不足的语言的未来研究。

数据来源

初始数据收集和规范化

NusaX-Senti是由母语人士进行专业翻译的印度尼西亚语情感分析数据集。

源语言的制作人是谁?

数据是由人类(母语人士)产生的。

标注

标注过程

NusaX-Senti源自SmSA,这是印度尼西亚情感分析领域最大的公开数据集。它包括来自多个在线平台的评论和评价。为了确保数据集的质量,我们通过手动审查所有句子,删除了任何辱骂性言论和个人身份信息。为了确保标签分布的平衡,我们通过分层抽样随机选择了1,000个样本,然后将其翻译成相应的语言。

标注者是谁?

印度尼西亚语和相应语言的母语人士标注。标注者根据翻译样本数量获得报酬。

个人和敏感信息

已删除个人信息。

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

NusaX是从评论文本中创建的。这些数据源可能包含一些偏见。

其他已知限制

暂无其他已知限制

附加信息

许可信息

CC-BY-SA 4.0.

归属性 - 您必须给出适当的信用,提供许可链接,并指出是否进行了更改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人赞同您或您的使用方式。

相同方式共享 - 如果您重新混合、转换或基于本材料进行创作,您必须将您的贡献以与原始许可证相同的许可证方式分发。

没有其他限制 - 您不能应用法律条款或技术措施,限制其他人执行许可证允许的任何操作。

有关数据集的任何信息,请联系作者。

引用信息

@misc{winata2022nusax,
      title={NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages},
      author={Winata, Genta Indra and Aji, Alham Fikri and Cahyawijaya,
      Samuel and Mahendra, Rahmad and Koto, Fajri and Romadhony,
      Ade and Kurniawan, Kemal and Moeljadi, David and Prasojo,
      Radityo Eko and Fung, Pascale and Baldwin, Timothy and Lau,
      Jey Han and Sennrich, Rico and Ruder, Sebastian},
      year={2022},
      eprint={2205.15960},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @afaji 添加了这个数据集。