数据集:

europa_eac_tm

任务:

翻译

计算机处理:

translation

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

Europa教育和文化翻译记忆(EAC-TM)数据集卡

数据集摘要

这个数据集是由欧盟教育和文化总司(EAC)于2012年发布的人工制作的翻译语料库,涵盖了从英语到多达25种语言的翻译。

要加载不在配置中的语言对,只需将语言代码指定为语言对。例如,如果您想将捷克语翻译成希腊语:

dataset = load_dataset("europa_eac_tm", language_pair=("cs", "el"))

支持的任务和排行榜

语言

此数据集中的句子最初是用英语编写的(源语言为英语),然后翻译成其他语言。句子是从电子表单中提取的:EAC的终身学习计划(LLP)和青年行动计划的分权行动的申请和报告表单。电子表单中的内容在技术上分为两种类型:(a)下拉菜单的标签和内容(称为“表单”数据),以及(b)复选框(称为“参考数据”)。

该数据集包含将英语句子或句子部分翻译成保加利亚语、捷克语、丹麦语、荷兰语、爱沙尼亚语、德语、希腊语、芬兰语、法语、克罗地亚语、匈牙利语、冰岛语、意大利语、拉脱维亚语、立陶宛语、马耳他语、挪威语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语和土耳其语。

语言代码:

  • bg
  • cs
  • da
  • de
  • el
  • en
  • es
  • et
  • fi
  • fr
  • hr
  • hu
  • is
  • it
  • lt
  • lv
  • mt
  • nl
  • no
  • pl
  • pt
  • ro
  • sk
  • sl
  • sv
  • tr

数据集结构

数据实例

{
  "translation": {
    "en":"Sentence to translate",
    "<target_language>": "Phrase à traduire",
  },
  "sentence_type": 0
}

数据字段

  • 翻译:将句子(英语)和已翻译句子进行映射。

  • 句子类型:整数值,如果句子是“表单数据”(从源电子表单的下拉菜单的标签和内容中提取),则为0;如果句子是“参考数据”(从电子表单复选框中提取),则为1。

数据拆分

数据未进行拆分(仅有train拆分可用)。

数据集创建

策划理由

与JRC-Acquis和DGT-TM相比,EAC-TM相对较小,但它具有一个优势,即它关注的是教育和文化领域。此外,它还包括克罗地亚语(HR)、冰岛语(IS)、挪威语(Bokmål,NB或挪威语,NO)和土耳其语(TR)的翻译单元。

来源数据

初始数据收集和规范化

EAC-TM是在翻译EAC的终身学习计划(LLP)和青年行动计划的分权行动的申请和报告表单的背景下构建的。所有文档和句子最初是用英语编写的,然后翻译成其他语言。

电子表单中的内容在技术上分为两种类型:(a)下拉菜单的标签和内容(称为“表单”数据),以及(b)复选框(称为“参考数据”)。由于数据类型的不同,这两个集合是分开保存的。例如,标签可以是“国家”,“请指定您的国家”等,而参考数据的示例是“德国”,“基本/一般项目”,“教育和文化”等。

数据包含了2008年末至2012年7月之间进行的翻译。

谁是源语言制作者?

文本是由终身学习和青年行动项目的国家机构的工作人员翻译的。他们通常是教育/青年和欧盟项目领域的专业人士。因此,他们不是专业翻译人员,但通常是目标语言的母语使用者。

注释

注释过程

句子是由人工翻译的。

注释者是谁?

文本是由终身学习和青年行动项目的国家机构的工作人员翻译的。他们通常是教育/青年和欧盟项目领域的专业人士。因此,他们不是专业翻译人员,但通常是目标语言的母语使用者。

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

讨论偏见

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

© European Union, 1995-2020

委员会的再利用政策由 Commission Decision of 12 December 2011 on the reuse of Commission documents 实施。

除非另有说明(例如在单独的版权声明中),本网站上欧盟拥有的内容根据 Creative Commons Attribution 4.0 International (CC BY 4.0) licence 进行许可。这意味着允许再利用,前提是给出适当的信用并指出变更。

如果特定内容描绘了可识别的私人个人或包含第三方作品,则可能需要清除其他权利。要使用或复制非欧盟拥有的内容,可能需要直接从权利持有人那里获得许可。不包括在委员会的再利用政策中并且未向您授予许可的软件或工业财产权覆盖的文件,例如专利、商标、注册设计、徽标和名称。

引用信息

@Article{Steinberger2014,
        author={Steinberger, Ralf
                and Ebrahim, Mohamed
                and Poulis, Alexandros
                and Carrasco-Benitez, Manuel
                and Schl{\"u}ter, Patrick
                and Przybyszewski, Marek
                and Gilbro, Signe},
        title={An overview of the European Union's highly multilingual parallel corpora},
        journal={Language Resources and Evaluation},
        year={2014},
        month={Dec},
        day={01},
        volume={48},
        number={4},
        pages={679-707},
        issn={1574-0218},
        doi={10.1007/s10579-014-9277-0},
        url={https://doi.org/10.1007/s10579-014-9277-0}
}

贡献

感谢 @SBrandeis 添加此数据集。