数据集:

juletxara/xstory_cloze

任务:

task_categories:other

语言:

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

found expert-generated

批注创建人:

found

源数据集:

extended|story_cloze

预印本库:

arxiv:2112.10668

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

XStoryCloze 数据集卡片

数据集摘要

XStoryCloze 数据集是 Meta AI 发布的 10 种非英语语言的 English StoryCloze dataset （2016 年春季版本）的专业翻译。

支持的任务和排名

常识推理

语言

英语（en）、俄语（ru）、简体中文（zh）、拉丁美洲西班牙语（es）、阿拉伯语（ar）、印地语（hi）、印度尼西亚语（id）、泰卢固语（te）、斯瓦希里语（sw）、巴斯克语（eu）、缅甸语（my）

数据集结构

数据实例

下载的数据集文件大小：2.03 MB
生成的数据集大小：2.03 MB
使用的总磁盘空间：2.05 MB

“train”的示例如下。

{'answer_right_ending': 1,
 'input_sentence_1': 'Rick grew up in a troubled household.',
 'input_sentence_2': 'He never found good support in family, and turned to gangs.',
 'input_sentence_3': "It wasn't long before Rick got shot in a robbery.",
 'input_sentence_4': 'The incident caused him to turn a new leaf.',
 'sentence_quiz1': 'He is happy now.',
 'sentence_quiz2': 'He joined a gang.',
 'story_id': '138d5bfb-05cc-41e3-bf2c-fa85ebad14e2'}

数据字段

数据字段在所有拆分中都是相同的。

input_sentence_1：故事中的第一句话。
input_sentence_2：故事中的第二句话。
input_sentence_3：故事中的第三句话。
input_sentence_4：故事中的第四句话。
sentence_quiz1：故事的第一种可能延续。
sentence_quiz2：故事的第二种可能延续。
answer_right_ending：正确的可能结局；可以是 1 或 2。
story_id：故事 ID。

数据拆分

该数据集旨在用于评估多语言语言模型的零和少量样本学习能力。我们将每种语言的数据拆分为训练集和测试集（分别为 360 个和 1510 个示例）。不同语言的发布数据文件保持逐行对齐。

name	train	test
en	360	1510
ru	360	1510
zh	360	1510
es	360	1510
ar	360	1510
hi	360	1510
id	360	1510
te	360	1510
sw	360	1510
eu	360	1510
my	360	1510

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

语言数据的生产者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集维护者

More Information Needed

许可信息

XStoryCloze 在 CC BY-SA 4.0 下开源，与原始的英文 StoryCloze 使用相同的许可证。

引用信息

@article{DBLP:journals/corr/abs-2112-10668,
  author    = {Xi Victoria Lin and
               Todor Mihaylov and
               Mikel Artetxe and
               Tianlu Wang and
               Shuohui Chen and
               Daniel Simig and
               Myle Ott and
               Naman Goyal and
               Shruti Bhosale and
               Jingfei Du and
               Ramakanth Pasunuru and
               Sam Shleifer and
               Punit Singh Koura and
               Vishrav Chaudhary and
               Brian O'Horo and
               Jeff Wang and
               Luke Zettlemoyer and
               Zornitsa Kozareva and
               Mona T. Diab and
               Veselin Stoyanov and
               Xian Li},
  title     = {Few-shot Learning with Multilingual Language Models},
  journal   = {CoRR},
  volume    = {abs/2112.10668},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.10668},
  eprinttype = {arXiv},
  eprint    = {2112.10668},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @juletx 。

作者:

juletxara

数据集大小:

9.85 MB

XStoryCloze 数据集卡片

数据集摘要

支持的任务和排名

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集维护者

许可信息

引用信息

贡献