数据集:

juletxara/xcopa_mt

任务:

问答

语言:

en

计算机处理:

monolingual

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended|copa

许可:

cc-by-4.0
英文

XCOPA MT数据集简介

数据集摘要

XCOPA: 一个用于因果常识推理的多语言数据集。Cross-lingual Choice of Plausible Alternatives(XCOPA)数据集用于评估机器学习模型在不同语言之间转移常识推理的能力。该数据集是英文COPA(Roemmele et al. 2011)的翻译和重新注释,涵盖了全球11个语言家族的11种语言。该数据集具有挑战性,因为它既需要对世界知识有深入了解,又需要能够应用到新的语言上进行推理。有关XCOPA的创建和基线实现的全部细节可以在相关论文中找到。

Xcopa语言:et

支持的任务和排行榜

More Information Needed

语言

  • et
  • ht
  • id
  • it
  • qu
  • sw
  • ta
  • th
  • tr
  • vi
  • zh

数据集结构

数据实例

et
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.07 MB
  • 总共使用的磁盘空间:0.44 MB

'validation'的示例如下。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
ht
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.07 MB
  • 总共使用的磁盘空间:0.44 MB

'validation'的示例如下。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
id
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.07 MB
  • 总共使用的磁盘空间:0.45 MB

'validation'的示例如下。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
it
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.08 MB
  • 总共使用的磁盘空间:0.45 MB

'validation'的示例如下。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}
qu
  • 下载的数据集文件大小:0.37 MB
  • 生成的数据集大小:0.08 MB
  • 总共使用的磁盘空间:0.45 MB

'validation'的示例如下。

{
    "changed": false,
    "choice1": "Ta kallas piima kaussi.",
    "choice2": "Ta kaotas oma isu.",
    "idx": 1,
    "label": 1,
    "premise": "Tüdruk leidis oma helveste seest putuka.",
    "question": "effect"
}

数据字段

所有拆分的数据字段相同。

et
  • premise: 字符串特征。
  • choice1: 字符串特征。
  • choice2: 字符串特征。
  • question: 字符串特征。
  • label: int32类型的特征。
  • idx: int32类型的特征。
  • changed: 布尔类型的特征。
ht
  • premise: 字符串特征。
  • choice1: 字符串特征。
  • choice2: 字符串特征。
  • question: 字符串特征。
  • label: int32类型的特征。
  • idx: int32类型的特征。
  • changed: 布尔类型的特征。
id
  • premise: 字符串特征。
  • choice1: 字符串特征。
  • choice2: 字符串特征。
  • question: 字符串特征。
  • label: int32类型的特征。
  • idx: int32类型的特征。
  • changed: 布尔类型的特征。
it
  • premise: 字符串特征。
  • choice1: 字符串特征。
  • choice2: 字符串特征。
  • question: 字符串特征。
  • label: int32类型的特征。
  • idx: int32类型的特征。
  • changed: 布尔类型的特征。
qu
  • premise: 字符串特征。
  • choice1: 字符串特征。
  • choice2: 字符串特征。
  • question: 字符串特征。
  • label: int32类型的特征。
  • idx: int32类型的特征。
  • changed: 布尔类型的特征。

数据拆分

name validation test
et 100 500
ht 100 500
id 100 500
it 100 500
qu 100 500

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

资料语言的生产者是谁?

More Information Needed

注释

注释流程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

Creative Commons Attribution 4.0 International (CC BY 4.0) .

引文信息

  @article{ponti2020xcopa,
  title={{XCOPA: A} Multilingual Dataset for Causal Commonsense Reasoning},
  author={Edoardo M. Ponti, Goran Glava
{s}, Olga Majewska, Qianchu Liu, Ivan Vuli'{c} and Anna Korhonen},
  journal={arXiv preprint},
  year={2020},
  url={https://ducdauge.github.io/files/xcopa.pdf}
}

@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011},
  url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF},
}

贡献

感谢 @patrickvonplaten @lewtun @thomwolf 添加该数据集。