数据集:
csebuetnlp/xnli_bn
任务:
文本分类语言:
bn计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
machine-generated源数据集:
extended许可:
cc-by-nc-sa-4.0这是一个由XNLI使用的MNLI数据的子集经过筛选而成的孟加拉语自然语言推理(NLI)数据集,使用了引入的最先进的英文到孟加拉语翻译模型。
from datasets import load_dataset dataset = load_dataset("csebuetnlp/xnli_bn")
下面是数据集中的一个示例,以JSON格式给出。
{ "sentence1": "আসলে, আমি এমনকি এই বিষয়ে চিন্তাও করিনি, কিন্তু আমি এত হতাশ হয়ে পড়েছিলাম যে, শেষ পর্যন্ত আমি আবার তার সঙ্গে কথা বলতে শুরু করেছিলাম", "sentence2": "আমি তার সাথে আবার কথা বলিনি।", "label": "contradiction" }
数据字段如下:
split | count |
---|---|
train | 381449 |
validation | 2419 |
test | 4895 |
数据集的策划过程与 XNLI 数据集相同:我们使用引入的英文到孟加拉语翻译模型来翻译 MultiNLI 培训数据。由于自动翻译过程中可能出现错误的可能性,我们使用翻译结果和原始句子的相似性来计算它们的相似度。所有相似度低于0.70的句子都被舍弃。
初始数据收集与规范化
源语言生成者是谁?
注释过程
批注者是谁?
该仓库的内容仅限于非商业研究目的,数据集内容的版权属于原版权持有人。
如果您使用该数据集,请引用以下论文:
@misc{bhattacharjee2021banglabert, title={BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding}, author={Abhik Bhattacharjee and Tahmid Hasan and Kazi Samin and Md Saiful Islam and M. Sohel Rahman and Anindya Iqbal and Rifat Shahriyar}, year={2021}, eprint={2101.00204}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @abhik1505040 和 @Tahmid 添加了此数据集。