数据集:
qanastek/ELRC-Medical-V2
ELRC-Medical-V2是由 European Commission 资助并由 German Research Center for Artificial Intelligence 协调的神经机器翻译平行语料库。
翻译:该数据集可用于训练翻译模型。
在我们的情况下,该语料库由来自欧盟(EU)的23种不同语言的源语言和目标语言句对组成,其中源语言总是英语(EN)。
语言列表:保加利亚语(bg),捷克语(cs),丹麦语(da),德语(de),希腊语(el),西班牙语(es),爱沙尼亚语(et),芬兰语(fi),法语(fr),爱尔兰语(ga),克罗地亚语(hr),匈牙利语(hu),意大利语(it),立陶宛语(lt),拉脱维亚语(lv),马耳他语(mt),荷兰语(nl),波兰语(pl),葡萄牙语(pt),罗马尼亚语(ro),斯洛伐克语(sk),斯洛文尼亚语(sl),瑞典语(sv)。
from datasets import load_dataset NAME = "qanastek/ELRC-Medical-V2" dataset = load_dataset(NAME, use_auth_token=True) print(dataset) dataset_train = load_dataset(NAME, "en-es", split='train[:90%]') dataset_test = load_dataset(NAME, "en-es", split='train[10%:]') print(dataset_train) print(dataset_train[0]) print(dataset_test)
id,lang,source_text,target_text 1,en-bg,"TOC \o ""1-3"" \h \z \u Introduction 3","TOC \o ""1-3"" \h \z \u Въведение 3" 2,en-bg,The international humanitarian law and its principles are often not respected.,Международното хуманитарно право и неговите принципи често не се зачитат. 3,en-bg,"At policy level, progress was made on several important initiatives.",На равнище политики напредък е постигнат по няколко важни инициативи.
id:整数类型的文档标识符。
lang:字符串类型的源语言和目标语言句对。
source_text:字符串类型的源文本。
target_text:字符串类型的目标文本。
Lang | # Docs | Avg. # Source Tokens | Avg. # Target Tokens |
---|---|---|---|
bg | 13 149 | 23 | 24 |
cs | 13 160 | 23 | 21 |
da | 13 242 | 23 | 22 |
de | 13 291 | 23 | 22 |
el | 13 091 | 23 | 26 |
es | 13 195 | 23 | 28 |
et | 13 016 | 23 | 17 |
fi | 12 942 | 23 | 16 |
fr | 13 149 | 23 | 28 |
ga | 412 | 12 | 12 |
hr | 12 836 | 23 | 21 |
hu | 13 025 | 23 | 21 |
it | 13 059 | 23 | 25 |
lt | 12 580 | 23 | 18 |
lv | 13 044 | 23 | 19 |
mt | 3 093 | 16 | 14 |
nl | 13 191 | 23 | 25 |
pl | 12 761 | 23 | 22 |
pt | 13 148 | 23 | 26 |
ro | 13 163 | 23 | 25 |
sk | 12 926 | 23 | 20 |
sl | 13 208 | 23 | 21 |
sv | 13 099 | 23 | 21 |
Total | 277 780 | 22.21 | 21.47 |
有关详细信息,请参阅相应的 pages 。
双语数据(来自多语种网站)的获取、规范化、清洗、去重以及平行文档的识别由 ILSP-FC tool 完成。 Maligna aligner 用于对齐段落。还进行了段落对的合并/筛选。
谁是源语言的生产者?该语料库的所有数据都由Vassilis Papavassiliou在 ELRC-Share 上上传。
该语料库不包含个人或敏感信息。
任务的本质导致目标翻译的质量存在变异。
ELRC-Medical-V2:Labrak Yanis,Dufour Richard
来自欧盟出版社有关医疗领域的双语语料库v。2(EN-XX)语料库:Vassilis Papavassiliou和 others 。
本作品根据 Attribution 4.0 International (CC BY 4.0) License 进行许可。
使用该模型时,请引用以下论文。
@inproceedings{losch-etal-2018-european, title = European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information Management, author = { L'osch, Andrea and Mapelli, Valérie and Piperidis, Stelios and Vasiljevs, Andrejs and Smal, Lilli and Declerck, Thierry and Schnur, Eileen and Choukri, Khalid and van Genabith, Josef }, booktitle = Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), month = may, year = 2018, address = Miyazaki, Japan, publisher = European Language Resources Association (ELRA), url = https://aclanthology.org/L18-1213, }