数据集:

juletxara/xstory_cloze_mt

任务:

task_categories:other

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found expert-generated

批注创建人:

found

源数据集:

extended|story_cloze

预印本库:

arxiv:2112.10668

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

XStoryCloze MT 数据集卡片

数据集概要

XStoryCloze 包括从 English StoryCloze dataset (Spring 2016 版本) 到 10 种非英语语言的专业翻译版本。该数据集由 Meta AI 提供。这个数据集是 XstoryCloze 经机器翻译后成为从俄语、简体中文、西班牙语、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语、缅甸语翻译到英语的版本。

支持的任务和排行榜

常识推理

语言

这个数据集是 XstoryCloze 经机器翻译后成为从俄语、简体中文 (Simplified)、西班牙语 (拉丁美洲)、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语、缅甸语翻译到英语的版本。

数据集结构

数据实例

下载的数据集文件大小：2.03 MB
生成的数据集大小：2.03 MB
使用的总磁盘空间量：2.05 MB

'train' 的一个示例如下所示。

{'answer_right_ending': 1,
 'input_sentence_1': 'Rick grew up in a troubled household.',
 'input_sentence_2': 'He never found good support in family, and turned to gangs.',
 'input_sentence_3': "It wasn't long before Rick got shot in a robbery.",
 'input_sentence_4': 'The incident caused him to turn a new leaf.',
 'sentence_quiz1': 'He is happy now.',
 'sentence_quiz2': 'He joined a gang.',
 'story_id': '138d5bfb-05cc-41e3-bf2c-fa85ebad14e2'}

数据字段

所有拆分的数据字段相同。

input_sentence_1：故事中的第一个陈述。
input_sentence_2：故事中的第二个陈述。
input_sentence_3：故事中的第三个陈述。
input_sentence_4：故事中的第四个陈述。
sentence_quiz1：故事的第一个可能延续。
sentence_quiz2：故事的第二个可能延续。
answer_right_ending：正确的可能结局；为 1 或 2。
story_id：故事 ID。

数据拆分

这个数据集旨在用于评估多语言语言模型的零样本和少样本学习能力。我们将每种语言的数据分为训练集和测试集（分别为 360 和 1510 个示例）。不同语言的发布数据文件保持逐行对齐。

name	test
ru	1510
zh	1510
es	1510
ar	1510
hi	1510
id	1510
te	1510
sw	1510
eu	1510
my	1510

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作人是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

XStoryCloze 在 CC BY-SA 4.0 下开源，与原始的英语 StoryCloze 使用相同的许可证。

引用信息

@article{DBLP:journals/corr/abs-2112-10668,
  author    = {Xi Victoria Lin and
               Todor Mihaylov and
               Mikel Artetxe and
               Tianlu Wang and
               Shuohui Chen and
               Daniel Simig and
               Myle Ott and
               Naman Goyal and
               Shruti Bhosale and
               Jingfei Du and
               Ramakanth Pasunuru and
               Sam Shleifer and
               Punit Singh Koura and
               Vishrav Chaudhary and
               Brian O'Horo and
               Jeff Wang and
               Luke Zettlemoyer and
               Zornitsa Kozareva and
               Mona T. Diab and
               Veselin Stoyanov and
               Xian Li},
  title     = {Few-shot Learning with Multilingual Language Models},
  journal   = {CoRR},
  volume    = {abs/2112.10668},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.10668},
  eprinttype = {arXiv},
  eprint    = {2112.10668},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @juletx 。

作者:

juletxara

数据集大小:

149.47 MB

XStoryCloze MT 数据集卡片

数据集概要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献