数据集:

hind_encorp

任务:

翻译

语言:

en hi

计算机处理:

translation

大小:

100K<n<1M

批注创建人:

expert-generated

源数据集:

original
英文

HindEnCorp 数据集卡片

数据集概述

HindEnCorp 平行文本(句子对齐)来自以下来源:Tides,其中包含了5万个句子对,主要取自新闻文章。此数据集最初是为2002年的DARPA-TIDES惊喜语言大赛收集的,后来在印度工学院海德拉巴分校进行了改进,并在2008年ICON大会上为NLP工具大赛提供了该数据集(Venkatapathy,2008年)。

Daniel Pipes 的评论包含322篇英文文章,由新闻记者Daniel Pipes撰写,并翻译成印地语。

EMILLE。这个语料库(Baker et al., 2002)包括三个部分:单语、并列和注释的语料库。它包含十四个单语子语料库,包括十四种南亚语言的书面和(对于某些语言)口语数据。EMILLE单语子语料库总共包含9,279,900,000个单词(包括孟加拉语、古吉拉特语、印地语、旁遮普语和乌尔都语的2,627,000个转录为口语数据的单词)。并列语料库由20万个英文文本及其对应的印地语和其他语言的翻译组成。

Bojar等人收集的较小的数据集包括ACL 2005大会语料库(EMILLE的子语料库)、维基百科上的命名实体语料库(2009年爬取)和农业领域的并列语料库。对于当前的发布版本,我们使用了这些来源来扩充并列语料库:Intercorp(Čermák和Rosen,2012)是一个包含32种语言(包括印地语)的大型多语种并列语料库。这些核心文本总计有2.02亿个单词。这些核心文本非常适合我们,因为它们的句子对齐是经过手动检查的,因此非常可靠。它们主要涵盖短篇故事和小说。Intercorp中有七个印地语文本。不幸的是,只有其中三个有英文翻译;其余四个只与捷克文对齐。Intercorp的印地语子语料库中有11.8万个印地语单词。

TED谈话3以英语为主要语言,并配有102种语言的翻译文本。共有179次演讲提供了印地语翻译。

The Indic multi-parallel语料库(Birch等,2011;Post等,2012)是一部由Wikipedia的文本组成的语料库,这些文本是通过非专业的Mechanical Turk译者将印度语转换成英文的。在许多方面,质量有些参差不齐,从排版和标点符号、大写、拼写、词汇选择到句子结构等方面开始。原则上可以从每个输入句子被翻译4次这一事实中获得一些控制。我们使用了2012年的语料库。

Launchpad.net是一个软件协作平台,托管了许多开源项目,并促进了工具的协同本地化。我们下载了所有托管项目的所有修订版本,并提取了本地化(.po)文件。

其他较小的数据集。这次,我们添加了2013年爬取的维基百科实体(包括出现在维基百科印地语页面上的命名实体的任何形态变化)以及来自Shabdkosh在线词典的单词、单词示例和引用。

支持的任务和排行榜

[需要更多信息]

语言

印地语, 英语

数据集结构

数据实例

[需要更多信息]

数据字段

HindEnCorp列:

  • 源标识符(段落来源)
  • 对齐类型(英文段落数-印地语段落数)
  • 对齐质量,有以下几种类型:“manual”...手动对齐的来源 “implied”...通过逐段翻译构建一侧的来源 float...以某种方式反映自动对齐的好坏;不是非常可靠
  • 英文段落或段落
  • 印地语段落或段落

每个段落字段都是以纯文本或导出格式呈现的(如上所述)。

如果一行上有多个段落(例如对齐类型为2-1的行,其中有两个英文段落),那么段落在文本字段中用分隔。

数据拆分

[需要更多信息]

数据集创建

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言的生产者是谁?

Daniel Pipes,Baker,Bojar,"Čermák and Rosen,2012","Birch et al., 2011; Post et al., 2012"

标注

注释过程

数据的第一部分TIDES最初是为了2002年的DARPA-TIDES惊喜语言大赛收集的,后来在印度工程技术学院海德拉巴分校进行了改进,并在2008年的ICON大会上为NLP工具大赛提供了该数据集(Venkatapathy,2008年)。

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅提供用于研究目的的数据集。有关更多信息,请查阅数据集许可证。

附加信息

数据集创建者

Bojar, Ondřej ; Diatka, Vojtěch ; Straňák, Pavel ; Tamchyna, Aleš ; Zeman, Daniel

许可信息

CC BY-NC-SA 3.0

引用信息

@InProceedings{hindencorp05:lrec:2014, author = {Ondřej Bojar and Vojtěch Diatka and Pavel Rychl{'{y}} and Pavel Stra{\v{n}}{'{a}}k and V{'{\i}}t Suchomel and Ale{\v{s}} Tamchyna and Daniel Zeman}, title = "{HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation}", booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)}, year = {2014}, month = {may}, date = {26-31}, address = {Reykjavik, Iceland}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-8-4}, language = {english}}

贡献

感谢 @rahul-art 提供此数据集。