数据集:

juletxara/xstory_cloze_mt

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

批注创建人:

found

预印本库:

arxiv:2112.10668
英文

XStoryCloze MT 数据集卡片

数据集概要

XStoryCloze 包括从 English StoryCloze dataset (Spring 2016 版本) 到 10 种非英语语言的专业翻译版本。该数据集由 Meta AI 提供。这个数据集是 XstoryCloze 经机器翻译后成为从俄语、简体中文、西班牙语、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语、缅甸语翻译到英语的版本。

支持的任务和排行榜

常识推理

语言

这个数据集是 XstoryCloze 经机器翻译后成为从俄语、简体中文 (Simplified)、西班牙语 (拉丁美洲)、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语、缅甸语翻译到英语的版本。

数据集结构

数据实例

  • 下载的数据集文件大小:2.03 MB
  • 生成的数据集大小:2.03 MB
  • 使用的总磁盘空间量:2.05 MB

'train' 的一个示例如下所示。

{'answer_right_ending': 1,
 'input_sentence_1': 'Rick grew up in a troubled household.',
 'input_sentence_2': 'He never found good support in family, and turned to gangs.',
 'input_sentence_3': "It wasn't long before Rick got shot in a robbery.",
 'input_sentence_4': 'The incident caused him to turn a new leaf.',
 'sentence_quiz1': 'He is happy now.',
 'sentence_quiz2': 'He joined a gang.',
 'story_id': '138d5bfb-05cc-41e3-bf2c-fa85ebad14e2'}

数据字段

所有拆分的数据字段相同。

  • input_sentence_1:故事中的第一个陈述。
  • input_sentence_2:故事中的第二个陈述。
  • input_sentence_3:故事中的第三个陈述。
  • input_sentence_4:故事中的第四个陈述。
  • sentence_quiz1:故事的第一个可能延续。
  • sentence_quiz2:故事的第二个可能延续。
  • answer_right_ending:正确的可能结局;为 1 或 2。
  • story_id:故事 ID。

数据拆分

这个数据集旨在用于评估多语言语言模型的零样本和少样本学习能力。我们将每种语言的数据分为训练集和测试集(分别为 360 和 1510 个示例)。不同语言的发布数据文件保持逐行对齐。

name test
ru 1510
zh 1510
es 1510
ar 1510
hi 1510
id 1510
te 1510
sw 1510
eu 1510
my 1510

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作人是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

XStoryCloze 在 CC BY-SA 4.0 下开源,与原始的英语 StoryCloze 使用相同的许可证。

引用信息

@article{DBLP:journals/corr/abs-2112-10668,
  author    = {Xi Victoria Lin and
               Todor Mihaylov and
               Mikel Artetxe and
               Tianlu Wang and
               Shuohui Chen and
               Daniel Simig and
               Myle Ott and
               Naman Goyal and
               Shruti Bhosale and
               Jingfei Du and
               Ramakanth Pasunuru and
               Sam Shleifer and
               Punit Singh Koura and
               Vishrav Chaudhary and
               Brian O'Horo and
               Jeff Wang and
               Luke Zettlemoyer and
               Zornitsa Kozareva and
               Mona T. Diab and
               Veselin Stoyanov and
               Xian Li},
  title     = {Few-shot Learning with Multilingual Language Models},
  journal   = {CoRR},
  volume    = {abs/2112.10668},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.10668},
  eprinttype = {arXiv},
  eprint    = {2112.10668},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @juletx