数据集:
hind_encorp
HindEnCorp 平行文本(句子对齐)来自以下来源:Tides,其中包含了5万个句子对,主要取自新闻文章。此数据集最初是为2002年的DARPA-TIDES惊喜语言大赛收集的,后来在印度工学院海德拉巴分校进行了改进,并在2008年ICON大会上为NLP工具大赛提供了该数据集(Venkatapathy,2008年)。
Daniel Pipes 的评论包含322篇英文文章,由新闻记者Daniel Pipes撰写,并翻译成印地语。
EMILLE。这个语料库(Baker et al., 2002)包括三个部分:单语、并列和注释的语料库。它包含十四个单语子语料库,包括十四种南亚语言的书面和(对于某些语言)口语数据。EMILLE单语子语料库总共包含9,279,900,000个单词(包括孟加拉语、古吉拉特语、印地语、旁遮普语和乌尔都语的2,627,000个转录为口语数据的单词)。并列语料库由20万个英文文本及其对应的印地语和其他语言的翻译组成。
Bojar等人收集的较小的数据集包括ACL 2005大会语料库(EMILLE的子语料库)、维基百科上的命名实体语料库(2009年爬取)和农业领域的并列语料库。对于当前的发布版本,我们使用了这些来源来扩充并列语料库:Intercorp(Čermák和Rosen,2012)是一个包含32种语言(包括印地语)的大型多语种并列语料库。这些核心文本总计有2.02亿个单词。这些核心文本非常适合我们,因为它们的句子对齐是经过手动检查的,因此非常可靠。它们主要涵盖短篇故事和小说。Intercorp中有七个印地语文本。不幸的是,只有其中三个有英文翻译;其余四个只与捷克文对齐。Intercorp的印地语子语料库中有11.8万个印地语单词。
TED谈话3以英语为主要语言,并配有102种语言的翻译文本。共有179次演讲提供了印地语翻译。
The Indic multi-parallel语料库(Birch等,2011;Post等,2012)是一部由Wikipedia的文本组成的语料库,这些文本是通过非专业的Mechanical Turk译者将印度语转换成英文的。在许多方面,质量有些参差不齐,从排版和标点符号、大写、拼写、词汇选择到句子结构等方面开始。原则上可以从每个输入句子被翻译4次这一事实中获得一些控制。我们使用了2012年的语料库。
Launchpad.net是一个软件协作平台,托管了许多开源项目,并促进了工具的协同本地化。我们下载了所有托管项目的所有修订版本,并提取了本地化(.po)文件。
其他较小的数据集。这次,我们添加了2013年爬取的维基百科实体(包括出现在维基百科印地语页面上的命名实体的任何形态变化)以及来自Shabdkosh在线词典的单词、单词示例和引用。
[需要更多信息]
印地语, 英语
[需要更多信息]
HindEnCorp列:
每个段落字段都是以纯文本或导出格式呈现的(如上所述)。
如果一行上有多个段落(例如对齐类型为2-1的行,其中有两个英文段落),那么段落在文本字段中用分隔。
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言的生产者是谁?Daniel Pipes,Baker,Bojar,"Čermák and Rosen,2012","Birch et al., 2011; Post et al., 2012"
数据的第一部分TIDES最初是为了2002年的DARPA-TIDES惊喜语言大赛收集的,后来在印度工程技术学院海德拉巴分校进行了改进,并在2008年的ICON大会上为NLP工具大赛提供了该数据集(Venkatapathy,2008年)。
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
仅提供用于研究目的的数据集。有关更多信息,请查阅数据集许可证。
Bojar, Ondřej ; Diatka, Vojtěch ; Straňák, Pavel ; Tamchyna, Aleš ; Zeman, Daniel
CC BY-NC-SA 3.0
@InProceedings{hindencorp05:lrec:2014, author = {Ondřej Bojar and Vojtěch Diatka and Pavel Rychl{'{y}} and Pavel Stra{\v{n}}{'{a}}k and V{'{\i}}t Suchomel and Ale{\v{s}} Tamchyna and Daniel Zeman}, title = "{HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation}", booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)}, year = {2014}, month = {may}, date = {26-31}, address = {Reykjavik, Iceland}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Hrafn Loftsson and Bente Maegaard and Joseph Mariani and Asuncion Moreno and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-8-4}, language = {english}}
感谢 @rahul-art 提供此数据集。