数据集:

qanastek/ELRC-Medical-V2

任务:

翻译

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

found

源数据集:

extended
英文

ELRC-Medical-V2:欧洲医疗机器翻译平行语料库

数据集摘要

ELRC-Medical-V2是由 European Commission 资助并由 German Research Center for Artificial Intelligence 协调的神经机器翻译平行语料库。

支持的任务和排行榜

翻译:该数据集可用于训练翻译模型。

语言

在我们的情况下,该语料库由来自欧盟(EU)的23种不同语言的源语言和目标语言句对组成,其中源语言总是英语(EN)。

语言列表:保加利亚语(bg),捷克语(cs),丹麦语(da),德语(de),希腊语(el),西班牙语(es),爱沙尼亚语(et),芬兰语(fi),法语(fr),爱尔兰语(ga),克罗地亚语(hr),匈牙利语(hu),意大利语(it),立陶宛语(lt),拉脱维亚语(lv),马耳他语(mt),荷兰语(nl),波兰语(pl),葡萄牙语(pt),罗马尼亚语(ro),斯洛伐克语(sk),斯洛文尼亚语(sl),瑞典语(sv)。

使用HuggingFace加载数据集

from datasets import load_dataset

NAME = "qanastek/ELRC-Medical-V2"

dataset = load_dataset(NAME, use_auth_token=True)
print(dataset)

dataset_train = load_dataset(NAME, "en-es", split='train[:90%]')
dataset_test = load_dataset(NAME, "en-es", split='train[10%:]')
print(dataset_train)
print(dataset_train[0])
print(dataset_test)

数据集结构

数据实例

id,lang,source_text,target_text
1,en-bg,"TOC \o ""1-3"" \h \z \u Introduction 3","TOC \o ""1-3"" \h \z \u Въведение 3"
2,en-bg,The international humanitarian law and its principles are often not respected.,Международното хуманитарно право и неговите принципи често не се зачитат.
3,en-bg,"At policy level, progress was made on several important initiatives.",На равнище политики напредък е постигнат по няколко важни инициативи.

数据字段

id:整数类型的文档标识符。

lang:字符串类型的源语言和目标语言句对。

source_text:字符串类型的源文本。

target_text:字符串类型的目标文本。

数据拆分

Lang # Docs Avg. # Source Tokens Avg. # Target Tokens
bg 13 149 23 24
cs 13 160 23 21
da 13 242 23 22
de 13 291 23 22
el 13 091 23 26
es 13 195 23 28
et 13 016 23 17
fi 12 942 23 16
fr 13 149 23 28
ga 412 12 12
hr 12 836 23 21
hu 13 025 23 21
it 13 059 23 25
lt 12 580 23 18
lv 13 044 23 19
mt 3 093 16 14
nl 13 191 23 25
pl 12 761 23 22
pt 13 148 23 26
ro 13 163 23 25
sk 12 926 23 20
sl 13 208 23 21
sv 13 099 23 21
Total 277 780 22.21 21.47

数据集创建

策划原理

有关详细信息,请参阅相应的 pages

源数据

初始数据收集和规范化

双语数据(来自多语种网站)的获取、规范化、清洗、去重以及平行文档的识别由 ILSP-FC tool 完成。 Maligna aligner 用于对齐段落。还进行了段落对的合并/筛选。

谁是源语言的生产者?

该语料库的所有数据都由Vassilis Papavassiliou在 ELRC-Share 上上传。

个人和敏感信息

该语料库不包含个人或敏感信息。

使用数据时的注意事项

其他已知限制

任务的本质导致目标翻译的质量存在变异。

其他信息

数据集策划者

ELRC-Medical-V2:Labrak Yanis,Dufour Richard

来自欧盟出版社有关医疗领域的双语语料库v。2(EN-XX)语料库:Vassilis Papavassiliou和 others

许可信息

本作品根据 Attribution 4.0 International (CC BY 4.0) License 进行许可。

引用信息

使用该模型时,请引用以下论文。

@inproceedings{losch-etal-2018-european,
    title = European Language Resource Coordination: Collecting Language Resources for Public Sector Multilingual Information Management,
    author = {
      L'osch, Andrea  and
      Mapelli, Valérie  and
      Piperidis, Stelios  and
      Vasiljevs, Andrejs  and
      Smal, Lilli  and
      Declerck, Thierry  and
      Schnur, Eileen  and
      Choukri, Khalid  and
      van Genabith, Josef
    },
    booktitle = Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018),
    month = may,
    year = 2018,
    address = Miyazaki, Japan,
    publisher = European Language Resources Association (ELRA),
    url = https://aclanthology.org/L18-1213,
}