数据集:

csebuetnlp/xnli_bn

任务:

文本分类

子任务:

natural-language-inference

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

machine-generated

源数据集:

extended

预印本库:

arxiv:2101.00204 arxiv:2007.01852

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

xnli_bn 数据集卡片

数据集摘要

这是一个由XNLI使用的MNLI数据的子集经过筛选而成的孟加拉语自然语言推理（NLI）数据集，使用了引入的最先进的英文到孟加拉语翻译模型。

支持的任务和排行榜

More information needed

语言

孟加拉语

用法

from datasets import load_dataset
dataset = load_dataset("csebuetnlp/xnli_bn")

数据集结构

数据实例

下面是数据集中的一个示例，以JSON格式给出。

{
  "sentence1": "আসলে, আমি এমনকি এই বিষয়ে চিন্তাও করিনি, কিন্তু আমি এত হতাশ হয়ে পড়েছিলাম যে, শেষ পর্যন্ত আমি আবার তার সঙ্গে কথা বলতে শুরু করেছিলাম",
  "sentence2": "আমি তার সাথে আবার কথা বলিনি।",
  "label": "contradiction"
}

数据字段

数据字段如下：

sentence1: 表示前提的字符串特征。
sentence2: 表示假设的字符串特征。
label: 分类标签，可能的取值为矛盾（0）、蕴含（1）、中性（2）。

数据拆分

split	count
train	381449
validation	2419
test	4895

数据集创建

数据集的策划过程与 XNLI 数据集相同：我们使用引入的英文到孟加拉语翻译模型来翻译 MultiNLI 培训数据。由于自动翻译过程中可能出现错误的可能性，我们使用翻译结果和原始句子的相似性来计算它们的相似度。所有相似度低于0.70的句子都被舍弃。

策划理由

More information needed

源数据

XNLI

初始数据收集与规范化

More information needed

源语言生成者是谁？

More information needed

批注

More information needed

注释过程

More information needed

批注者是谁？

More information needed

个人和敏感信息

More information needed

使用数据的注意事项

附加信息

数据集策划者

More information needed

许可信息

该仓库的内容仅限于非商业研究目的，数据集内容的版权属于原版权持有人。

引文信息

如果您使用该数据集，请引用以下论文：

@misc{bhattacharjee2021banglabert,
      title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding},
      author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar},
      year={2021},
      eprint={2101.00204},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @abhik1505040 和 @Tahmid 添加了此数据集。

作者:

csebuetnlp

数据集大小:

20.46 MB

xnli_bn 数据集卡片

数据集摘要

支持的任务和排行榜

语言

用法

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

批注

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引文信息

贡献