数据集:

juletxara/xstory_cloze

计算机处理:

multilingual

大小:

1K<n<10K

批注创建人:

found

预印本库:

arxiv:2112.10668
英文

XStoryCloze 数据集卡片

数据集摘要

XStoryCloze 数据集是 Meta AI 发布的 10 种非英语语言的 English StoryCloze dataset (2016 年春季版本)的专业翻译。

支持的任务和排名

常识推理

语言

英语(en)、俄语(ru)、简体中文(zh)、拉丁美洲西班牙语(es)、阿拉伯语(ar)、印地语(hi)、印度尼西亚语(id)、泰卢固语(te)、斯瓦希里语(sw)、巴斯克语(eu)、缅甸语(my)

数据集结构

数据实例

  • 下载的数据集文件大小:2.03 MB
  • 生成的数据集大小:2.03 MB
  • 使用的总磁盘空间:2.05 MB

“train”的示例如下。

{'answer_right_ending': 1,
 'input_sentence_1': 'Rick grew up in a troubled household.',
 'input_sentence_2': 'He never found good support in family, and turned to gangs.',
 'input_sentence_3': "It wasn't long before Rick got shot in a robbery.",
 'input_sentence_4': 'The incident caused him to turn a new leaf.',
 'sentence_quiz1': 'He is happy now.',
 'sentence_quiz2': 'He joined a gang.',
 'story_id': '138d5bfb-05cc-41e3-bf2c-fa85ebad14e2'}

数据字段

数据字段在所有拆分中都是相同的。

  • input_sentence_1:故事中的第一句话。
  • input_sentence_2:故事中的第二句话。
  • input_sentence_3:故事中的第三句话。
  • input_sentence_4:故事中的第四句话。
  • sentence_quiz1:故事的第一种可能延续。
  • sentence_quiz2:故事的第二种可能延续。
  • answer_right_ending:正确的可能结局;可以是 1 或 2。
  • story_id:故事 ID。

数据拆分

该数据集旨在用于评估多语言语言模型的零和少量样本学习能力。我们将每种语言的数据拆分为训练集和测试集(分别为 360 个和 1510 个示例)。不同语言的发布数据文件保持逐行对齐。

name train test
en 360 1510
ru 360 1510
zh 360 1510
es 360 1510
ar 360 1510
hi 360 1510
id 360 1510
te 360 1510
sw 360 1510
eu 360 1510
my 360 1510

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

语言数据的生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集维护者

More Information Needed

许可信息

XStoryCloze 在 CC BY-SA 4.0 下开源,与原始的英文 StoryCloze 使用相同的许可证。

引用信息

@article{DBLP:journals/corr/abs-2112-10668,
  author    = {Xi Victoria Lin and
               Todor Mihaylov and
               Mikel Artetxe and
               Tianlu Wang and
               Shuohui Chen and
               Daniel Simig and
               Myle Ott and
               Naman Goyal and
               Shruti Bhosale and
               Jingfei Du and
               Ramakanth Pasunuru and
               Sam Shleifer and
               Punit Singh Koura and
               Vishrav Chaudhary and
               Brian O'Horo and
               Jeff Wang and
               Luke Zettlemoyer and
               Zornitsa Kozareva and
               Mona T. Diab and
               Veselin Stoyanov and
               Xian Li},
  title     = {Few-shot Learning with Multilingual Language Models},
  journal   = {CoRR},
  volume    = {abs/2112.10668},
  year      = {2021},
  url       = {https://arxiv.org/abs/2112.10668},
  eprinttype = {arXiv},
  eprint    = {2112.10668},
  timestamp = {Tue, 04 Jan 2022 15:59:27 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @juletx