数据集:

europa_ecdc_tm

任务:

翻译

计算机处理:

translation

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

[数据集名称]的数据卡

数据集概要

2012年10月,欧盟(EU)的机构“欧洲疾病预防控制中心”(ECDC)发布了一个翻译记忆(TM),即一组句子及其专业制作的翻译,涵盖25种语言。

ECDC-TM涵盖了25种语言:EU的23种官方语言加上挪威语(Norsk)和冰岛语。ECDC-TM是通过将英文翻译成以下24种语言而创建的:保加利亚语,捷克语,丹麦语,荷兰语,英语,爱沙尼亚语,爱尔兰语(Gaelige),德语,希腊语,芬兰语,法语,匈牙利语,冰岛语,意大利语,拉脱维亚语,立陶宛语,马耳他语,挪威语(Norsk),波兰语,葡萄牙语,罗马尼亚语,斯洛伐克语,斯洛文尼亚语,西班牙语和瑞典语。

所有文档和句子最初都是用英语撰写的,然后由卢森堡的Translation Centre CdT的专业翻译人员将其翻译成其他语言。

要加载不在配置中的语言对,只需将语言代码指定为语言对。例如,如果要将捷克语翻译成希腊语:

dataset = load_dataset("europa_ecdc_tm", language_pair=("cs", "el"))

支持的任务和排行榜

语言

所有文档和句子最初都是用英语(en)撰写的。然后,由卢森堡的Translation Centre CdT的专业翻译人员将其翻译成其他语言。

这些语言提供了翻译版本:en,bg,cs,da,de,el,en,es,et,fi,fr,ga,hu,is,it,lt,lv,mt,nl,no,pl,pt,ro,sk,sl,sv。

数据集结构

数据实例

{
  "translation": {
    "<source_language>":"Sentence to translate",
    "<target_language>": "Translated sentence",
  },
}

数据字段

  • translation:一个多语言的字符串变量,可能的语言包括en,bg,cs,da,de,el,en,es,et,fi,fr,ga,hu,is,it,lt,lv,mt,nl,no,pl,pt,ro,sk,sl,sv。

数据拆分

数据未分割(仅提供train拆分)。

数据集创建

策划理由

ECDC-TM与JRC-Acquis和DGT-TM相比较小,但它的优点是专注于一个非常不同的领域,即公共卫生领域。此外,它还包括爱尔兰语(Gaelige,GA),挪威语(Norsk,NO)和冰岛语(IS)的翻译单元。

源数据

初始数据收集和规范化

ECDC-TM是基于欧洲疾病预防控制中心(ECDC)网站创建的。大部分文档讨论与健康相关的主题(炭疽病、肉毒杆菌中毒、霍乱、登革热、肝炎等),但一些网页也描述了ECDC组织(例如组织结构、工作机会)和其活动(例如传染病情报、监测)。

源语言制作人是谁?

所有文档和句子最初都是由ECDC网站的内容制作人员用英语撰写的。

注释

注释过程

[需要更多信息]

注释者是谁?

所有文档和句子最初都是用英语撰写的。然后,由卢森堡的Translation Centre CdT的专业翻译人员将其翻译成其他语言。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

包含公共卫生领域的句子翻译,包括技术术语(例如疾病和治疗名称)。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

版权 ©欧盟/ECDC,2020年

版权

根据该许可证(或欧洲委员会以后发布的该许可证版本),以此进行许可证的(重新)使用决策(2011/833/EU)的再利用政策的条款,以及根据适用的法律对作品受到版权和/或其他适用法律保护的作品。 。通过在此处行使任何提供的作品的权利,您接受并同意受此许可证的条款约束。所有者(如下所定义)根据您对此类条款和条件的接受授予您根据此许可证享有的权利。‘所有者’表示欧盟(代表欧洲委员会)和欧洲疾病预防控制中心这两家联合的原始许可方和/或对作品的版权和任何其他知识产权和工业产权享有控制权。’作品’是根据‘版权声明’根据此许可证提供给您的信息和/或数据. ‘您’表示根据此许可证获取权利的自然人、法人或团体人身或公司。其它‘使用’意味着受版权或数据库权限限制的任何行为,无论是在原始媒介中还是在任何其他媒介中,包括但不限于分发、复制、适应或必要地修改以在不同的模式或格式中使用作品。它包括“重新使用”,即将作品用于初始目的外的目的的使用、向公众传播和/或分发。

权利

您被授予在法律允许的任何商业和非商业目的下使用和重新使用作品及其任何修改或衍生作品的永久、非独家、全球范围内、免费的许可证,前提是满足以下条件:a)未经修改的分发必须保留上述版权声明;b)未经修改的分发必须保留以下“无保证”免责声明;c)未经事先明确书面许可,您不得使用所有者的名称来代言或推广由使用作品衍生的产品和服务。

无保证

每个作品按“原样”提供,不论是明示还是暗示的,都不提供任何明示或暗示的保证、义务和责任,包括但不限于适销性、整合性、满意质量和特定用途的任何暗示保证。除非涉及故意不当行为或直接造成自然人损害的情况,否则所有者对任何附带、间接、直接或连带的损害不承担责任,包括但不限于数据丢失、利润损失或因使用或无法使用作品而导致的任何其他财务损失,即使所有者已被告知此类损失、损害、索赔或费用的可能性,或因任何第三方的任何索赔而导致。在适用于作品的国家法定产品责任法中,所有者可能对作品承担责任。

引用信息

@Article{Steinberger2014,
        author={Steinberger, Ralf
                and Ebrahim, Mohamed
                and Poulis, Alexandros
                and Carrasco-Benitez, Manuel
                and Schl{\"u}ter, Patrick
                and Przybyszewski, Marek
                and Gilbro, Signe},
        title={An overview of the European Union's highly multilingual parallel corpora},
        journal={Language Resources and Evaluation},
        year={2014},
        month={Dec},
        day={01},
        volume={48},
        number={4},
        pages={679-707},
        issn={1574-0218},
        doi={10.1007/s10579-014-9277-0},
        url={https://doi.org/10.1007/s10579-014-9277-0}
}

贡献

感谢 @SBrandeis 添加此数据集。