数据集:

Divyanshu/indicxnli

任务:

文本分类

子任务:

natural-language-inference

语言:

计算机处理:

multilingual

大小:

1M<n<10M

语言创建人:

machine-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2204.08776

许可:

cc0-1.0

数据集介绍文件清单

英文

IndicXNLI数据集卡片

数据集摘要

INDICXNLI与现有的XNLI数据集在形式上类似，但重点放在Indic语言家族上。INDICXNLI包括十一种主要的Indic语言的NLI数据，包括阿萨姆语（'as'）、古吉拉特语（'gu'）、卡纳达语（'kn'）、马拉雅拉姆语（'ml'）、马拉地语（'mr'）、奥迪亚语（'or'）、旁遮普语（'pa'）、泰米尔语（'ta'）、泰卢固语（'te'）、印地语（'hi'）和孟加拉语（'bn'）。

支持的任务和排行榜

任务：自然语言推理

排行榜：目前该数据集没有排行榜。

语言

阿萨姆语（as）
孟加拉语（bn）
古吉拉特语（gu）
卡纳达语（kn）
印地语（hi）
马来亚拉姆语（ml）
马拉地语（mr）
奥迪亚语（or）
旁遮普语（pa）
泰米尔语（ta）
泰卢固语（te）

数据集结构

数据实例

下面以JSON格式给出了hi数据集的一个示例。

 {'premise': 'अवधारणात्मक रूप से क्रीम स्किमिंग के दो बुनियादी आयाम हैं-उत्पाद और भूगोल।',
 'hypothesis': 'उत्पाद और भूगोल क्रीम स्किमिंग का काम करते हैं।',
 'label': 1 (neutral) }

数据字段

premise（string）: 前提句子
hypothesis（string）: 假设句子
label（integer）: 整数标签，0代表假设蕴含前提，2代表假设否定前提，1代表其他情况。

数据集划分

Language	ISO 639-1 Code	Train	Test	Dev
Assamese	as	392,702	5,010	2,490
Bengali	bn	392,702	5,010	2,490
Gujarati	gu	392,702	5,010	2,490
Hindi	hi	392,702	5,010	2,490
Kannada	kn	392,702	5,010	2,490
Malayalam	ml	392,702	5,010	2,490
Marathi	mr	392,702	5,010	2,490
Oriya	or	392,702	5,010	2,490
Punjabi	pa	392,702	5,010	2,490
Tamil	ta	392,702	5,010	2,490
Telugu	te	392,702	5,010	2,490

数据集使用

使用datasets库的代码片段来使用数据集。

from datasets import load_dataset

dataset = load_dataset("Divyanshu/indicxnli")

数据集创建

将XNLI英语数据集翻译成11种Indic语言。

策划理由

[需要更多信息]

源数据

XNLI dataset 初始化数据收集和规范化 Detailed in the paper 源语言制片人是谁？ Detailed in the paper 人工验证过程 Detailed in the paper

使用数据的注意事项

数据集策划者

Divyanshu Aggarwal，Vivek Gupta，Anoop Kunchukuttan

许可信息

本资料库的内容仅限于非商业研究目的，数据集内容的版权属于原始版权持有人。

引用信息

@misc{https://doi.org/10.48550/arxiv.2204.08776,
  doi = {10.48550/ARXIV.2204.08776},
  
  url = {https://arxiv.org/abs/2204.08776},
  
  author = {Aggarwal, Divyanshu and Gupta, Vivek and Kunchukuttan, Anoop},
  
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {IndicXNLI: Evaluating Multilingual Inference for Indian Languages}, 
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}

作者:

Divyanshu

数据集大小:

2.34 GB