数据集:

bigscience/xP3all

英文

xP3的数据集卡片

数据集概述

xP3(跨语言公共提示池)是一个包含46种语言和16种自然语言处理任务的提示和数据集的集合。它用于训练BLOOMZ和mT0,这两个多语言语言模型能够零编程对几十种语言的人类指令进行跟随。

  • 创建:可以使用可用的指令进行重建 here 。我们提供此版本以节省处理时间和方便重现。
  • 语言:46(可以通过 recreating with more splits 进行扩展)
  • xP3数据集系列:
Name Explanation Example models
1234321 Mixture of 17 tasks in 277 languages with English prompts WIP - Join us at Project Aya @ 1235321 to help!
1236321 Mixture of 13 training tasks in 46 languages with English prompts 1237321 & 1238321
1239321 Mixture of 13 training tasks in 46 languages with prompts in 20 languages (machine-translated from English) 12310321 & 12311321
12312321 xP3 + evaluation datasets adding an additional 3 tasks for a total of 16 tasks in 46 languages with English prompts
12313321 12314321 processed version of xP3 1237321
12316321 Repreprocessed version of the English-only 12317321 with 8 training tasks 12318321 & 12319321

数据集结构

数据实例

"train"的一个示例如下:

{
"inputs": "Sentence 1: Fue académico en literatura metafísica, teología y ciencias clásicas.\nSentence 2: Fue académico en literatura metafísica, teología y ciencia clásica.\nQuestion: Can we rewrite Sentence 1 to Sentence 2? Yes or No?",
"targets": "Yes" 
}

数据字段

数据字段在所有拆分中都相同:

  • 输入:输入模型的自然语言输入
  • 目标:模型必须生成的自然语言目标

数据拆分

下表总结了每种语言的大小(从merged_{lang}.jsonl文件中计算得出)。由于诸如tw之类的语言只是来自Flores的单个句子翻译样本,因此它们的字节百分比明显低于样本百分比。

Language Kilobytes % Samples %
tw 106288 0.11 265071 0.33
bm 107056 0.11 265180 0.33
ak 108096 0.11 265071 0.33
ca 110608 0.11 271191 0.33
eu 113008 0.11 281199 0.35
fon 113072 0.11 265063 0.33
st 114080 0.11 265063 0.33
ki 115040 0.12 265180 0.33
tum 116032 0.12 265063 0.33
wo 122560 0.12 365063 0.45
ln 126304 0.13 365060 0.45
as 156256 0.16 265063 0.33
or 161472 0.16 265063 0.33
kn 165456 0.17 265063 0.33
ml 175040 0.18 265864 0.33
rn 192992 0.19 318189 0.39
nso 229712 0.23 915051 1.13
tn 235536 0.24 915054 1.13
lg 235936 0.24 915021 1.13
rw 249360 0.25 915043 1.13
ts 250256 0.25 915044 1.13
sn 252496 0.25 865056 1.07
xh 254672 0.26 915058 1.13
zu 263712 0.26 915061 1.13
ny 272128 0.27 915063 1.13
ig 325232 0.33 950097 1.17
yo 352784 0.35 918416 1.13
ne 393680 0.39 315754 0.39
pa 523248 0.52 339210 0.42
gu 560688 0.56 347499 0.43
sw 566656 0.57 1130481 1.4
mr 666240 0.67 417269 0.52
bn 832720 0.83 428843 0.53
ta 926912 0.93 415433 0.51
te 1343232 1.35 584590 0.72
ur 1918272 1.92 855756 1.06
vi 3102512 3.11 1672106 2.07
code 4330752 4.34 2707724 3.34
hi 4403568 4.41 1554667 1.92
zh 4599440 4.61 3589234 4.43
id 4612256 4.62 2643418 3.27
ar 4683456 4.69 2160181 2.67
fr 6591120 6.6 5316403 6.57
pt 6886800 6.9 3752156 4.63
es 8587920 8.6 5413205 6.69
en 39252528 39.33 32740750 40.44
total 99807184 100.0 80956089 100.0

数据集创建

源数据

训练数据集 评估数据集( xP3all 中包含,除了HumanEval) 额外的 xP3all 数据集

其他信息

许可信息

该数据集使用 Apache 2.0 许可发布。

引用信息

@misc{muennighoff2022crosslingual,
      title={Crosslingual Generalization through Multitask Finetuning}, 
      author={Niklas Muennighoff and Thomas Wang and Lintang Sutawika and Adam Roberts and Stella Biderman and Teven Le Scao and M Saiful Bari and Sheng Shen and Zheng-Xin Yong and Hailey Schoelkopf and Xiangru Tang and Dragomir Radev and Alham Fikri Aji and Khalid Almubarak and Samuel Albanie and Zaid Alyafeai and Albert Webson and Edward Raff and Colin Raffel},
      year={2022},
      eprint={2211.01786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 promptsource 的贡献者为此数据集添加了许多提示。