英文

TaPaCo语料库数据集卡片

数据集摘要

TaPaCo语料库是从Tatoeba数据库中提取的73种语言的自由可用释义语料库。Tatoeba是一个以语言学习者为主的众包项目,旨在为特定的语言结构和单词提供例句和翻译。释义语料库是通过用Tatoeba句子和“意思相同”的句子之间的等价链接填充图形来创建的。然后遍历该图形以提取释义集合。应用了几个与语言无关的过滤器和修剪步骤以去除无趣的句子。对三种语言进行的手动评估表明,推断得出的释义约有一半到四分之三是正确的,其余大部分要么是正确但平凡的,要么是中性化形态区别的近义释义。该语料库总共包含190万个句子,每种语言约有20-25万个句子。涵盖了我们所知道的其他释义数据集中没有的一系列语言。

支持的任务和排行榜

释义检测和生成已成为NLP中的热门任务,并逐渐整合到各种常见的下游任务中,如机器翻译、信息检索、问答和语义解析。大多数现有数据集只涵盖单个语言(在大多数情况下为英语)或少数语言。此外,一些释义数据集侧重于词汇和短语级别的释义,而其他数据集则是使用机器翻译进行(半)自动创建的。

每种语言的句子数量在200到25万之间,这使得该数据集更适合用于微调和评估而不适合训练。它非常适合用于释义生成模型的多参考评估,因为通常没有一种正确的方法来释义给定的输入句子。

语言

该数据集包含以下语言的释义:阿非利卡语、阿拉伯语、阿塞拜疆语、白俄罗斯语、柏柏尔语、保加利亚语、孟加拉语、布列塔尼语、加泰罗尼亚语;瓦伦西亚语、查瓦卡诺语、中文普通话、捷克语、丹麦语、德语、希腊语、现代英语、世界语、西班牙语;卡斯蒂利亚语、爱沙尼亚语、巴斯克语、芬兰语、法语、加利西亚语、格罗宁根语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、国际辅助语言协会语、印度尼西亚语、Interlingue语;西方语、伊多语、冰岛语、意大利语、日语、洛布雅语、卡比尔语、朝鲜语、康沃尔语、拉丁语、诺瓦敏语、立陶宛语、马其顿语、马拉地语、博克马尔语、挪威语;挪威博克马尔语、低地德语;下萨克森语;德文、低地撒克逊语、荷兰语;佛兰芒语、]古俄语、土耳其语、奥斯曼语(1500-1928)、伊朗波斯尼亚语、波兰语、葡萄牙语、伦迪语、罗马尼亚语;摩尔达维亚语;摩尔多瓦语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、土库曼语、塔加洛语、克林贡语;克林贡-霍尔语、托基波纳语、土耳其语、鞑靼语、维吾尔语、乌克兰语、乌尔都语、越南语、沃拉普克语、瓦赖语、吴语和粤语

数据集结构

数据实例

每个数据实例对应一个释义,例如:

{ 
    'paraphrase_set_id': '1483',  
    'sentence_id': '5778896',
    'paraphrase': 'Ɣremt adlis-a.', 
    'lists': ['7546'], 
    'tags': [''],
    'language': 'ber'
}

数据字段

每个对话实例具有以下字段:

  • paraphrase_set_id:将所有被视为释义的句子分组的递增编号
  • sentence_id:OPUS句子编号
  • paraphrase:给定paraphrase_set_id的给定语言的句子释义
  • lists:贡献者可以将句子添加到列表中以指定数据的原始来源
  • tags:在可用时指示句子的形态和音韵特性
  • language:语言标识符,属于此数据集中的73种语言之一

数据拆分

该数据集只有一个“train”拆分,总共包含190万个句子,每种语言有20-25万个句子

数据集创建

组织原理

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言制片人?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Creative Commons Attribution 2.0 Generic

引用信息

@dataset{scherrer_yves_2020_3707949,
  author       = {Scherrer, Yves},
  title        = {{TaPaCo: A Corpus of Sentential Paraphrases for 73 Languages}},
  month        = mar,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.3707949},
  url          = {https://doi.org/10.5281/zenodo.3707949}
}

贡献

感谢 @pacman100 添加此数据集。