数据集:
juletxara/xstory_cloze_mt
语言:
en计算机处理:
monolingual大小:
1K<n<10K批注创建人:
found源数据集:
extended|story_cloze预印本库:
arxiv:2112.10668许可:
cc-by-sa-4.0XStoryCloze 包括从 English StoryCloze dataset (Spring 2016 版本) 到 10 种非英语语言的专业翻译版本。该数据集由 Meta AI 提供。这个数据集是 XstoryCloze 经机器翻译后成为从俄语、简体中文、西班牙语、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语、缅甸语翻译到英语的版本。
常识推理
这个数据集是 XstoryCloze 经机器翻译后成为从俄语、简体中文 (Simplified)、西班牙语 (拉丁美洲)、阿拉伯语、印地语、印尼语、泰卢固语、斯瓦希里语、巴斯克语、缅甸语翻译到英语的版本。
'train' 的一个示例如下所示。
{'answer_right_ending': 1, 'input_sentence_1': 'Rick grew up in a troubled household.', 'input_sentence_2': 'He never found good support in family, and turned to gangs.', 'input_sentence_3': "It wasn't long before Rick got shot in a robbery.", 'input_sentence_4': 'The incident caused him to turn a new leaf.', 'sentence_quiz1': 'He is happy now.', 'sentence_quiz2': 'He joined a gang.', 'story_id': '138d5bfb-05cc-41e3-bf2c-fa85ebad14e2'}
所有拆分的数据字段相同。
这个数据集旨在用于评估多语言语言模型的零样本和少样本学习能力。我们将每种语言的数据分为训练集和测试集(分别为 360 和 1510 个示例)。不同语言的发布数据文件保持逐行对齐。
name | test |
---|---|
ru | 1510 |
zh | 1510 |
es | 1510 |
ar | 1510 |
hi | 1510 |
id | 1510 |
te | 1510 |
sw | 1510 |
eu | 1510 |
my | 1510 |
XStoryCloze 在 CC BY-SA 4.0 下开源,与原始的英语 StoryCloze 使用相同的许可证。
@article{DBLP:journals/corr/abs-2112-10668, author = {Xi Victoria Lin and Todor Mihaylov and Mikel Artetxe and Tianlu Wang and Shuohui Chen and Daniel Simig and Myle Ott and Naman Goyal and Shruti Bhosale and Jingfei Du and Ramakanth Pasunuru and Sam Shleifer and Punit Singh Koura and Vishrav Chaudhary and Brian O'Horo and Jeff Wang and Luke Zettlemoyer and Zornitsa Kozareva and Mona T. Diab and Veselin Stoyanov and Xian Li}, title = {Few-shot Learning with Multilingual Language Models}, journal = {CoRR}, volume = {abs/2112.10668}, year = {2021}, url = {https://arxiv.org/abs/2112.10668}, eprinttype = {arXiv}, eprint = {2112.10668}, timestamp = {Tue, 04 Jan 2022 15:59:27 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2112-10668.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
感谢 @juletx 。