数据集:

csebuetnlp/xnli_bn

语言:

bn

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

extended
英文

xnli_bn 数据集卡片

数据集摘要

这是一个由XNLI使用的MNLI数据的子集经过筛选而成的孟加拉语自然语言推理(NLI)数据集,使用了引入的最先进的英文到孟加拉语翻译模型。

支持的任务和排行榜

More information needed

语言

  • 孟加拉语

用法

from datasets import load_dataset
dataset = load_dataset("csebuetnlp/xnli_bn")

数据集结构

数据实例

下面是数据集中的一个示例,以JSON格式给出。

{
  "sentence1": "আসলে, আমি এমনকি এই বিষয়ে চিন্তাও করিনি, কিন্তু আমি এত হতাশ হয়ে পড়েছিলাম যে, শেষ পর্যন্ত আমি আবার তার সঙ্গে কথা বলতে শুরু করেছিলাম",
  "sentence2": "আমি তার সাথে আবার কথা বলিনি।",
  "label": "contradiction"
}

数据字段

数据字段如下:

  • sentence1: 表示前提的字符串特征。
  • sentence2: 表示假设的字符串特征。
  • label: 分类标签,可能的取值为矛盾(0)、蕴含(1)、中性(2)。

数据拆分

split count
train 381449
validation 2419
test 4895

数据集创建

数据集的策划过程与 XNLI 数据集相同:我们使用引入的英文到孟加拉语翻译模型来翻译 MultiNLI 培训数据。由于自动翻译过程中可能出现错误的可能性,我们使用翻译结果和原始句子的相似性来计算它们的相似度。所有相似度低于0.70的句子都被舍弃。

策划理由

More information needed

源数据

XNLI

初始数据收集与规范化

More information needed

源语言生成者是谁?

More information needed

批注

More information needed

注释过程

More information needed

批注者是谁?

More information needed

个人和敏感信息

More information needed

使用数据的注意事项

数据的社会影响

More information needed

偏见讨论

More information needed

其他已知限制

More information needed

附加信息

数据集策划者

More information needed

许可信息

该仓库的内容仅限于非商业研究目的,数据集内容的版权属于原版权持有人。

引文信息

如果您使用该数据集,请引用以下论文:

@misc{bhattacharjee2021banglabert,
      title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding},
      author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar},
      year={2021},
      eprint={2101.00204},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @abhik1505040 @Tahmid 添加了此数据集。