数据集:
MBZUAI/Bactrian-X
任务:
文本生成许可:
cc-by-nc-4.0Bactrian-X 数据集是一个包含52种语言的340万个指令-回复对的集合,其中通过使用Google翻译API将6.7万个英文指令( alpaca-52k + dolly-15k )翻译成51种语言。然后,将翻译后的指令输入ChatGPT(gpt-3.5-turbo)以获取其自然回复,从而得到52种语言的340万个指令-回复对(52种语言 × 6.7万个实例 = 340万个实例)。
我们使用了 mBART-50 中的52种语言,详细信息可以在下面找到。
数据字段如下:
英文示例如下所示。
{ "instruction": "What is the main idea of this text?", "input": "The robotics industry has become one of the fastest growing sectors in today’s economy. Robotics technology is being applied in various industries and applications, such as manufacturing, healthcare, and defense.", "output": "The main idea of the text is that the robotics industry is rapidly growing and its technology is being used in many different industries and applications.", "id": "alpaca-107" }
阿拉伯文示例如下所示。
{ "instruction": "قم بالوصول إلى إعدادات المتصفح الافتراضية على جهاز الكمبيوتر.", "input": "", "output": "لا يمكن لي كمساعد افتراضي القيام بهذه المهمة كونها تحتاج إلى الوصول إلى الجهاز المادي. يرجى الرجوع إلى دليل المستخدم للكمبيوتر الخاص بك أو البحث على الإنترنت لمعرفة كيفية الوصول إلى إعدادات المتصفح الافتراضية على جهاز الكمبيوتر الخاص بك.", "id": "alpaca-41997" }
印度尼西亚文示例如下所示。
{ "instruction": "Berapa banyak angka penting yang harus digunakan untuk nilai 0,000187?", "input": "", "output": "Ada tiga angka penting dalam nilai 0,000187.", "id": "alpaca-40382" }
德文示例如下所示。
{ "instruction": "Komponieren Sie ein Musikstück mit einem Titel, der Trauer bezeichnet.", "input": "", "output": ""Schmerzendes Herz"\n\nDas Stück beginnt mit einer langsamen, traurigen Melodie, gespielt von einem Solo-Violoncello. Die Harmonien, die von einem Klavier begleitet werden, sind durcheinander und dissonant, um ein Gefühl von Schmerz und Trauer zu vermitteln.\n\nIm Laufe des Stücks treten andere Instrumente ein, wie Streicher, Flöte und Oboe, um die Melodie zu unterstützen und zu intensivieren. Der Rhythmus bleibt langsam und schwerfällig, um die Schwere des Schmerzes darzustellen.\n\nIn der Mitte des Stücks gibt es einen Höhepunkt, wo die Melodie und Harmonien sich verdichten und ein Gefühl von Überwältigung erzeugen. Der Solo-Violoncello spielt eine traurige und schnelle Phrase, die die Verzweiflung und Isolation des Protagonisten ausdrückt.\n\nDas Stück endet mit einer Wiederholung der ersten Melodie, gespielt von einem Solo-Klavier, während die anderen Instrumente auslaufen. Die Harmonien werden jedoch weicher und sanfter, um einen Hauch von Hoffnung zu vermitteln, dass der Schmerz langsam vergeht.", "id": "alpaca-33619" }
法文示例如下所示。
{ "instruction": "Les Ceanothus ont-ils des racines peu profondes ?", "input": "", "output": "En tant qu'IA, je ne peux pas répondre avec une certitude absolue, mais voici des informations générales sur les racines de Ceanothus : \n\nLes Ceanothus ont tendance à avoir un système racinaire étendu et peu profond. Les racines peuvent s'étaler jusqu'à 4 à 6 fois la taille de la plante et s'étendre à environ 60 à 90 cm de profondeur. Cependant, cela peut varier en fonction du type de sol et de la variété de Ceanothus. Certaines variétés de Ceanothus pourraient avoir des racines plus profondes si les conditions s'y prêtent.", "id": "dolly-10940" }
No | Languages | Code | Train |
---|---|---|---|
1 | 12311321 | af_ZA | 67017 |
2 | 12312321 | ar_AR | 67017 |
3 | 12313321 | az_AZ | 67017 |
4 | 12314321 | bn_IN | 67017 |
5 | 12315321 | cs_CZ | 67017 |
6 | 12316321 | de_DE | 67017 |
7 | 12317321 | en_XX | 67017 |
8 | 12318321 | es_XX | 67017 |
9 | 12319321 | et_EE | 67017 |
10 | 12320321 | fa_IR | 67017 |
11 | 12321321 | fi_FI | 67017 |
12 | 12322321 | fr_XX | 67017 |
13 | 12323321 | gl_ES | 67017 |
14 | 12324321 | gu_IN | 67017 |
15 | 12325321 | he_IL | 67017 |
16 | 12326321 | hi_IN | 67017 |
17 | 12327321 | hr_HR | 67017 |
18 | 12328321 | id_ID | 67017 |
19 | 12329321 | it_IT | 67017 |
20 | 12330321 | ja_XX | 67017 |
21 | 12331321 | ka_GE | 67017 |
22 | 12332321 | kk_KZ | 67017 |
23 | 12333321 | km_KH | 67017 |
24 | 12334321 | ko_KR | 67017 |
25 | 12335321 | lt_LT | 67017 |
26 | 12336321 | lv_LV | 67017 |
27 | 12337321 | mk_MK | 67017 |
28 | 12338321 | ml_IN | 67017 |
29 | 12339321 | mn_MN | 67017 |
30 | 12340321 | mr_IN | 67017 |
31 | 12341321 | my_MM | 67017 |
32 | 12342321 | ne_NP | 67017 |
33 | 12343321 | nl_XX | 67017 |
34 | 12344321 | pl_PL | 67017 |
35 | 12345321 | ps_AF | 67017 |
36 | 12346321 | pt_XX | 67017 |
37 | 12347321 | ro_RO | 67017 |
38 | 12348321 | ru_RU | 67017 |
39 | 12349321 | si_LK | 67017 |
40 | 12350321 | sl_SI | 67017 |
41 | 12351321 | sv_SE | 67017 |
42 | 12352321 | sw_KE | 67017 |
43 | 12353321 | ta_IN | 67017 |
44 | 12354321 | te_IN | 67017 |
45 | 12355321 | th_TH | 67017 |
46 | 12356321 | tl_XX | 67017 |
47 | 12357321 | tr_TR | 67017 |
48 | 12358321 | uk_UA | 67017 |
49 | 12359321 | ur_PK | 67017 |
50 | 12360321 | vi_VN | 67017 |
51 | 12361321 | xh_ZA | 67017 |
52 | 12362321 | zh_CN | 67017 |
NLP服务于所有人:该数据集有助于在52种语言中实现最先进的指令跟随模型的民主化。该数据集还可以对多语言LoRA-based LLaMA模型进行首次实验。
(1)翻译偏差;(2)翻译数据集中存在潜在的英语文化偏差。
Bactrian-X数据集由语言模型(gpt-3.5-turbo)生成,不可避免地包含一些错误或偏差。我们鼓励用户谨慎使用此数据,并提出新的方法来过滤或改善其中的缺陷。
该数据集可在 Creative Commons NonCommercial (CC BY-NC 4.0) 下获得。
@misc{li2023bactrianx, title={Bactrian-X : A Multilingual Replicable Instruction-Following Model with Low-Rank Adaptation}, author={Haonan Li and Fajri Koto and Minghao Wu and Alham Fikri Aji and Timothy Baldwin}, year={2023}, eprint={2305.15011}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @haonan-li 和 @fajri91 添加此数据集。