数据集:
Divyanshu/indicxnli
任务:
文本分类计算机处理:
multilingual大小:
1M<n<10M语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:2204.08776许可:
cc0-1.0INDICXNLI与现有的XNLI数据集在形式上类似,但重点放在Indic语言家族上。INDICXNLI包括十一种主要的Indic语言的NLI数据,包括阿萨姆语('as')、古吉拉特语('gu')、卡纳达语('kn')、马拉雅拉姆语('ml')、马拉地语('mr')、奥迪亚语('or')、旁遮普语('pa')、泰米尔语('ta')、泰卢固语('te')、印地语('hi')和孟加拉语('bn')。
任务:自然语言推理
排行榜:目前该数据集没有排行榜。
下面以JSON格式给出了hi数据集的一个示例。
{'premise': 'अवधारणात्मक रूप से क्रीम स्किमिंग के दो बुनियादी आयाम हैं-उत्पाद और भूगोल।', 'hypothesis': 'उत्पाद और भूगोल क्रीम स्किमिंग का काम करते हैं।', 'label': 1 (neutral) }
Language | ISO 639-1 Code | Train | Test | Dev |
---|---|---|---|---|
Assamese | as | 392,702 | 5,010 | 2,490 |
Bengali | bn | 392,702 | 5,010 | 2,490 |
Gujarati | gu | 392,702 | 5,010 | 2,490 |
Hindi | hi | 392,702 | 5,010 | 2,490 |
Kannada | kn | 392,702 | 5,010 | 2,490 |
Malayalam | ml | 392,702 | 5,010 | 2,490 |
Marathi | mr | 392,702 | 5,010 | 2,490 |
Oriya | or | 392,702 | 5,010 | 2,490 |
Punjabi | pa | 392,702 | 5,010 | 2,490 |
Tamil | ta | 392,702 | 5,010 | 2,490 |
Telugu | te | 392,702 | 5,010 | 2,490 |
使用datasets库的代码片段来使用数据集。
from datasets import load_dataset dataset = load_dataset("Divyanshu/indicxnli")
将XNLI英语数据集翻译成11种Indic语言。
[需要更多信息]
Divyanshu Aggarwal,Vivek Gupta,Anoop Kunchukuttan
本资料库的内容仅限于非商业研究目的,数据集内容的版权属于原始版权持有人。
@misc{https://doi.org/10.48550/arxiv.2204.08776, doi = {10.48550/ARXIV.2204.08776}, url = {https://arxiv.org/abs/2204.08776}, author = {Aggarwal, Divyanshu and Gupta, Vivek and Kunchukuttan, Anoop}, keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {IndicXNLI: Evaluating Multilingual Inference for Indian Languages}, publisher = {arXiv}, year = {2022}, copyright = {Creative Commons Attribution 4.0 International} }