数据集:

qanastek/EMEA-V3

任务:

翻译

计算机处理:

bg cs da

大小:

100K<n<1M

语言创建人:

found

源数据集:

extended
英文

EMEA-V3 :欧洲药品管理局的欧洲平行翻译语料库

数据集摘要

EMEA-V3 是由 Tiedemann, Jorg 在 OPUS project 期间收集和对齐的神经机器翻译平行语料库。

支持的任务和排行榜

翻译:该数据集可用于训练翻译模型。

语言

在我们的案例中,该语料库包含欧洲联盟(EU)的 22 种不同语言的源语句和目标语句对。

语言列表:保加利亚语(bg),捷克语(cs),丹麦语(da),德语(de),希腊语(el),英语(en),西班牙语(es),爱沙尼亚语(et),芬兰语(fi),法语(fr),匈牙利语(hu),意大利语(it),立陶宛语(lt),拉脱维亚语(lv),马耳他语(mt),荷兰语(nl),波兰语(pl),葡萄牙语(pt),罗马尼亚语(ro),斯洛伐克语(sk),斯洛文尼亚语(sl),瑞典语(sv)。

使用 HuggingFace 加载数据集

from datasets import load_dataset
dataset = load_dataset("qanastek/EMEA-V3", split='train', download_mode='force_redownload')
print(dataset)
print(dataset[0])

数据集结构

数据实例

lang,source_text,target_text
bg-cs,EMEA/ H/ C/ 471,EMEA/ H/ C/ 471
bg-cs,ABILIFY,ABILIFY
bg-cs,Какво представлява Abilify?,Co je Abilify?
bg-cs,"Abilify е лекарство, съдържащо активното вещество арипипразол.","Abilify je léčivý přípravek, který obsahuje účinnou látku aripiprazol."
bg-cs,"Предлага се под формата на таблетки от 5 mg, 10 mg, 15 mg и 30 mg, като диспергиращи се таблетки (таблетки, които се разтварят в устата) от 10 mg, 15 mg и 30 mg, като перорален разтвор (1 mg/ ml) и като инжекционен разтвор (7, 5 mg/ ml).","Je dostupný ve formě tablet s obsahem 5 mg, 10 mg, 15 mg a 30 mg, ve formě tablet dispergovatelných v ústech (tablet, které se rozpustí v ústech) s obsahem 10 mg, 15 mg a 30 mg, jako perorální roztok (1 mg/ ml) nebo jako injekční roztok (7, 5 mg/ ml)."
bg-cs,За какво се използва Abilify?,Na co se přípravek Abilify používá?

数据字段

lang:类型为字符串的源语言和目标语言对。

source_text:类型为字符串的源文本。

target_text:类型为字符串的目标文本。

数据拆分

bg cs da de el en es et fi fr hu it lt lv mt nl pl pt ro sk sl sv
bg 0 342378 349675 348061 355696 333066 349936 336142 341732 358045 352763 351669 348679 342721 351097 353942 355005 347925 351099 345572 346954 342927
cs 342378 0 354824 353397 364609 335716 356506 340309 349040 363614 358353 357578 353232 347807 334353 355192 358357 351244 330447 346835 348411 346894
da 349675 354824 0 387202 397654 360186 387329 347391 379830 396294 367091 388495 360572 353801 342263 388250 368779 382576 340508 356890 357694 373510
de 348061 353397 387202 0 390281 364005 386335 346166 378626 393468 366828 381396 360907 353151 340294 377770 367080 381365 337562 355805 358700 376925
el 355696 364609 397654 390281 0 372824 393051 354874 384889 403248 373706 391389 368576 360047 348221 396284 372486 387170 342655 364959 363778 384569
en 333066 335716 360186 364005 372824 0 366769 333667 357177 373152 349176 361089 339899 336306 324695 360418 348450 361393 321233 338649 338195 352587
es 349936 356506 387329 386335 393051 366769 0 348454 378158 394253 368203 378076 360645 354126 340297 381188 367091 376443 337302 358745 357961 379462
et 336142 340309 347391 346166 354874 333667 348454 0 341694 358012 352099 351747 345417 339042 337302 350911 354329 345856 325992 343950 342787 340761
fi 341732 349040 379830 378626 384889 357177 378158 341694 0 387478 358869 379862 352968 346820 334275 379729 358760 374737 331135 348559 348680 368528
fr 358045 363614 396294 393468 403248 373152 394253 358012 387478 0 373625 385869 368817 361137 347699 388607 372387 388658 344139 363249 366474 383274
hu 352763 358353 367091 366828 373706 349176 368203 352099 358869 373625 0 367937 361015 354872 343831 368387 369040 361652 340410 357466 361157 356426
it 351669 357578 388495 381396 391389 361089 378076 351747 379862 385869 367937 0 360783 356001 341552 384018 365159 378841 337354 357562 358969 377635
lt 348679 353232 360572 360907 368576 339899 360645 345417 352968 368817 361015 360783 0 350576 337339 362096 361497 357070 335581 351639 350916 349636
lv 342721 347807 353801 353151 360047 336306 354126 339042 346820 361137 354872 356001 350576 0 336157 355791 358607 349590 329581 348689 346862 345016
mt 351097 334353 342263 340294 348221 324695 340297 337302 334275 347699 343831 341552 337339 336157 0 341111 344764 335553 338137 335930 334491 335353
nl 353942 355192 388250 377770 396284 360418 381188 350911 379729 388607 368387 384018 362096 355791 341111 0 369694 383913 339047 359126 360054 379771
pl 355005 358357 368779 367080 372486 348450 367091 354329 358760 372387 369040 365159 361497 358607 344764 369694 0 357426 335243 352527 355534 353214
pt 347925 351244 382576 381365 387170 361393 376443 345856 374737 388658 361652 378841 357070 349590 335553 383913 357426 0 333365 354784 352673 373392
ro 351099 330447 340508 337562 342655 321233 337302 325992 331135 344139 340410 337354 335581 329581 338137 339047 335243 333365 0 332373 330329 331268
sk 345572 346835 356890 355805 364959 338649 358745 343950 348559 363249 357466 357562 351639 348689 335930 359126 352527 354784 332373 0 348396 346855
sl 346954 348411 357694 358700 363778 338195 357961 342787 348680 366474 361157 358969 350916 346862 334491 360054 355534 352673 330329 348396 0 347727
sv 342927 346894 373510 376925 384569 352587 379462 340761 368528 383274 356426 377635 349636 345016 335353 379771 353214 373392 331268 346855 347727 0

数据集创建

策展理由

详细信息,请查看相应的 pages

源数据

Who are the source language producers?

这个语料库的每个数据都是由 Tiedemann, Jorg 于 Opus 年上传的。

个人和敏感信息

该语料库不含个人或敏感信息。

使用数据时的注意事项

其他已知限制

任务的性质使得目标翻译质量有所变化。

其他信息

数据集策展人

Hugging Face EMEA-V3:Labrak Yanis,Dufour Richard(与原始语料库无关)

OPUS:Parallel Data, Tools and Interfaces in OPUS:Tiedemann, Jorg。

引用信息

使用此数据集时,请引用以下论文。

@inproceedings{tiedemann-2012-parallel,
    title = Parallel Data, Tools and Interfaces in OPUS,
    author = {
      Tiedemann, Jorg
    },
    booktitle = "Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)",
    month = may,
    year = 2012,
    address = Istanbul, Turkey,
    publisher = European Language Resources Association (ELRA),
    url = http://www.lrec-conf.org/proceedings/lrec2012/pdf/463_Paper.pdf,
    pages = 2214--2218,
    abstract = This paper presents the current status of OPUS, a growing language resource of parallel corpora and related tools. The focus in OPUS is to provide freely available data sets in various formats together with basic annotation to be useful for applications in computational linguistics, translation studies and cross-linguistic corpus studies. In this paper, we report about new data sets and their features, additional annotation tools and models provided from the website and essential interfaces and on-line services included in the project.,
}