数据集:

Divyanshu/indicxnli

计算机处理:

multilingual

大小:

1M<n<10M

语言创建人:

machine-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2204.08776

许可:

cc0-1.0
英文

IndicXNLI数据集卡片

数据集摘要

INDICXNLI与现有的XNLI数据集在形式上类似,但重点放在Indic语言家族上。INDICXNLI包括十一种主要的Indic语言的NLI数据,包括阿萨姆语('as')、古吉拉特语('gu')、卡纳达语('kn')、马拉雅拉姆语('ml')、马拉地语('mr')、奥迪亚语('or')、旁遮普语('pa')、泰米尔语('ta')、泰卢固语('te')、印地语('hi')和孟加拉语('bn')。

支持的任务和排行榜

任务:自然语言推理

排行榜:目前该数据集没有排行榜。

语言

  • 阿萨姆语(as)
  • 孟加拉语(bn)
  • 古吉拉特语(gu)
  • 卡纳达语(kn)
  • 印地语(hi)
  • 马来亚拉姆语(ml)
  • 马拉地语(mr)
  • 奥迪亚语(or)
  • 旁遮普语(pa)
  • 泰米尔语(ta)
  • 泰卢固语(te)

数据集结构

数据实例

下面以JSON格式给出了hi数据集的一个示例。

 {'premise': 'अवधारणात्मक रूप से क्रीम स्किमिंग के दो बुनियादी आयाम हैं-उत्पाद और भूगोल।',
 'hypothesis': 'उत्पाद और भूगोल क्रीम स्किमिंग का काम करते हैं।',
 'label': 1 (neutral) }

数据字段

  • premise(string): 前提句子
  • hypothesis(string): 假设句子
  • label(integer): 整数标签,0代表假设蕴含前提,2代表假设否定前提,1代表其他情况。

数据集划分

Language ISO 639-1 Code Train Test Dev
Assamese as 392,702 5,010 2,490
Bengali bn 392,702 5,010 2,490
Gujarati gu 392,702 5,010 2,490
Hindi hi 392,702 5,010 2,490
Kannada kn 392,702 5,010 2,490
Malayalam ml 392,702 5,010 2,490
Marathi mr 392,702 5,010 2,490
Oriya or 392,702 5,010 2,490
Punjabi pa 392,702 5,010 2,490
Tamil ta 392,702 5,010 2,490
Telugu te 392,702 5,010 2,490

数据集使用

使用datasets库的代码片段来使用数据集。

from datasets import load_dataset

dataset = load_dataset("Divyanshu/indicxnli")

数据集创建

将XNLI英语数据集翻译成11种Indic语言。

策划理由

[需要更多信息]

源数据

XNLI dataset 初始化数据收集和规范化 Detailed in the paper 源语言制片人是谁? Detailed in the paper 人工验证过程 Detailed in the paper

使用数据的注意事项

数据集的社会影响

Detailed in the paper

偏见讨论

Detailed in the paper

其他已知限制

Detailed in the paper

数据集策划者

Divyanshu Aggarwal,Vivek Gupta,Anoop Kunchukuttan

许可信息

本资料库的内容仅限于非商业研究目的,数据集内容的版权属于原始版权持有人。

引用信息

@misc{https://doi.org/10.48550/arxiv.2204.08776,
  doi = {10.48550/ARXIV.2204.08776},
  
  url = {https://arxiv.org/abs/2204.08776},
  
  author = {Aggarwal, Divyanshu and Gupta, Vivek and Kunchukuttan, Anoop},
  
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {IndicXNLI: Evaluating Multilingual Inference for Indian Languages}, 
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}