数据集:

hind_encorp

任务:

翻译

语言:

计算机处理:

translation

大小:

100K<n<1M

语言创建人:

crowdsourced machine-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-nc-sa-3.0

数据集介绍文件清单

英文

HindEnCorp 数据集卡片

数据集概述

HindEnCorp 平行文本（句子对齐）来自以下来源：Tides，其中包含了5万个句子对，主要取自新闻文章。此数据集最初是为2002年的DARPA-TIDES惊喜语言大赛收集的，后来在印度工学院海德拉巴分校进行了改进，并在2008年ICON大会上为NLP工具大赛提供了该数据集（Venkatapathy，2008年）。

Daniel Pipes 的评论包含322篇英文文章，由新闻记者Daniel Pipes撰写，并翻译成印地语。

EMILLE。这个语料库（Baker et al., 2002）包括三个部分：单语、并列和注释的语料库。它包含十四个单语子语料库，包括十四种南亚语言的书面和（对于某些语言）口语数据。EMILLE单语子语料库总共包含9,279,900,000个单词（包括孟加拉语、古吉拉特语、印地语、旁遮普语和乌尔都语的2,627,000个转录为口语数据的单词）。并列语料库由20万个英文文本及其对应的印地语和其他语言的翻译组成。

Bojar等人收集的较小的数据集包括ACL 2005大会语料库（EMILLE的子语料库）、维基百科上的命名实体语料库（2009年爬取）和农业领域的并列语料库。对于当前的发布版本，我们使用了这些来源来扩充并列语料库：Intercorp（Čermák和Rosen，2012）是一个包含32种语言（包括印地语）的大型多语种并列语料库。这些核心文本总计有2.02亿个单词。这些核心文本非常适合我们，因为它们的句子对齐是经过手动检查的，因此非常可靠。它们主要涵盖短篇故事和小说。Intercorp中有七个印地语文本。不幸的是，只有其中三个有英文翻译；其余四个只与捷克文对齐。Intercorp的印地语子语料库中有11.8万个印地语单词。

TED谈话3以英语为主要语言，并配有102种语言的翻译文本。共有179次演讲提供了印地语翻译。

The Indic multi-parallel语料库（Birch等，2011；Post等，2012）是一部由Wikipedia的文本组成的语料库，这些文本是通过非专业的Mechanical Turk译者将印度语转换成英文的。在许多方面，质量有些参差不齐，从排版和标点符号、大写、拼写、词汇选择到句子结构等方面开始。原则上可以从每个输入句子被翻译4次这一事实中获得一些控制。我们使用了2012年的语料库。

Launchpad.net是一个软件协作平台，托管了许多开源项目，并促进了工具的协同本地化。我们下载了所有托管项目的所有修订版本，并提取了本地化（.po）文件。

其他较小的数据集。这次，我们添加了2013年爬取的维基百科实体（包括出现在维基百科印地语页面上的命名实体的任何形态变化）以及来自Shabdkosh在线词典的单词、单词示例和引用。

支持的任务和排行榜

[需要更多信息]

语言

印地语, 英语

数据集结构

数据实例

[需要更多信息]

数据字段

HindEnCorp列：

源标识符（段落来源）
对齐类型（英文段落数-印地语段落数）
对齐质量，有以下几种类型：“manual”...手动对齐的来源 “implied”...通过逐段翻译构建一侧的来源 float...以某种方式反映自动对齐的好坏；不是非常可靠
英文段落或段落
印地语段落或段落

每个段落字段都是以纯文本或导出格式呈现的（如上所述）。

如果一行上有多个段落（例如对齐类型为2-1的行，其中有两个英文段落），那么段落在文本字段中用分隔。

数据拆分

[需要更多信息]

数据集创建

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言的生产者是谁？

Daniel Pipes,Baker,Bojar,"Čermák and Rosen,2012","Birch et al., 2011; Post et al., 2012"

标注

注释过程

数据的第一部分TIDES最初是为了2002年的DARPA-TIDES惊喜语言大赛收集的，后来在印度工程技术学院海德拉巴分校进行了改进，并在2008年的ICON大会上为NLP工具大赛提供了该数据集（Venkatapathy，2008年）。

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅提供用于研究目的的数据集。有关更多信息，请查阅数据集许可证。

附加信息

数据集创建者

Bojar, Ondřej ; Diatka, Vojtěch ; Straňák, Pavel ; Tamchyna, Aleš ; Zeman, Daniel

许可信息

CC BY-NC-SA 3.0

引用信息

@InProceedings{hindencorp05:lrec:2014, author = {Ondřej Bojar and Vojtěch Diatka and Pavel Rychl{'{y}} and Pavel Stra{\v{n}}{'{a}}k and V{'{\i}}t Suchomel and Ale{\v{s}} Tamchyna and Daniel Zeman}, title = "{HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation}", booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)}, year = {2014}, month = {may}, date = {26-31}, address = {Reykjavik, Iceland}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-8-4}, language = {english}}

贡献

感谢 @rahul-art 提供此数据集。

作者:

佚名

数据集大小:

21.37 KB