数据集:

tapaco

任务:

文生文

翻译

文本分类

子任务:

semantic-similarity-classification

语言:

计算机处理:

multilingual

大小:

100K<n<1M 10K<n<100K 1K<n<10K

语言创建人:

crowdsourced

批注创建人:

machine-generated

源数据集:

extended|other-tatoeba

其他:

paraphrase-generation

许可:

cc-by-2.0

数据集介绍文件清单

英文

TaPaCo语料库数据集卡片

数据集摘要

TaPaCo语料库是从Tatoeba数据库中提取的73种语言的自由可用释义语料库。Tatoeba是一个以语言学习者为主的众包项目，旨在为特定的语言结构和单词提供例句和翻译。释义语料库是通过用Tatoeba句子和“意思相同”的句子之间的等价链接填充图形来创建的。然后遍历该图形以提取释义集合。应用了几个与语言无关的过滤器和修剪步骤以去除无趣的句子。对三种语言进行的手动评估表明，推断得出的释义约有一半到四分之三是正确的，其余大部分要么是正确但平凡的，要么是中性化形态区别的近义释义。该语料库总共包含190万个句子，每种语言约有20-25万个句子。涵盖了我们所知道的其他释义数据集中没有的一系列语言。

支持的任务和排行榜

释义检测和生成已成为NLP中的热门任务，并逐渐整合到各种常见的下游任务中，如机器翻译、信息检索、问答和语义解析。大多数现有数据集只涵盖单个语言（在大多数情况下为英语）或少数语言。此外，一些释义数据集侧重于词汇和短语级别的释义，而其他数据集则是使用机器翻译进行（半）自动创建的。

每种语言的句子数量在200到25万之间，这使得该数据集更适合用于微调和评估而不适合训练。它非常适合用于释义生成模型的多参考评估，因为通常没有一种正确的方法来释义给定的输入句子。

语言

该数据集包含以下语言的释义：阿非利卡语、阿拉伯语、阿塞拜疆语、白俄罗斯语、柏柏尔语、保加利亚语、孟加拉语、布列塔尼语、加泰罗尼亚语；瓦伦西亚语、查瓦卡诺语、中文普通话、捷克语、丹麦语、德语、希腊语、现代英语、世界语、西班牙语；卡斯蒂利亚语、爱沙尼亚语、巴斯克语、芬兰语、法语、加利西亚语、格罗宁根语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、国际辅助语言协会语、印度尼西亚语、Interlingue语；西方语、伊多语、冰岛语、意大利语、日语、洛布雅语、卡比尔语、朝鲜语、康沃尔语、拉丁语、诺瓦敏语、立陶宛语、马其顿语、马拉地语、博克马尔语、挪威语；挪威博克马尔语、低地德语；下萨克森语；德文、低地撒克逊语、荷兰语；佛兰芒语、]古俄语、土耳其语、奥斯曼语（1500-1928）、伊朗波斯尼亚语、波兰语、葡萄牙语、伦迪语、罗马尼亚语；摩尔达维亚语；摩尔多瓦语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、土库曼语、塔加洛语、克林贡语；克林贡-霍尔语、托基波纳语、土耳其语、鞑靼语、维吾尔语、乌克兰语、乌尔都语、越南语、沃拉普克语、瓦赖语、吴语和粤语

数据集结构

数据实例

每个数据实例对应一个释义，例如：

{ 
    'paraphrase_set_id': '1483',  
    'sentence_id': '5778896',
    'paraphrase': 'Ɣremt adlis-a.', 
    'lists': ['7546'], 
    'tags': [''],
    'language': 'ber'
}

数据字段

每个对话实例具有以下字段：

paraphrase_set_id：将所有被视为释义的句子分组的递增编号
sentence_id：OPUS句子编号
paraphrase：给定paraphrase_set_id的给定语言的句子释义
lists：贡献者可以将句子添加到列表中以指定数据的原始来源
tags：在可用时指示句子的形态和音韵特性
language：语言标识符，属于此数据集中的73种语言之一

数据拆分

该数据集只有一个“train”拆分，总共包含190万个句子，每种语言有20-25万个句子

数据集创建

组织原理

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言制片人？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Creative Commons Attribution 2.0 Generic

引用信息

@dataset{scherrer_yves_2020_3707949,
  author       = {Scherrer, Yves},
  title        = {{TaPaCo: A Corpus of Sentential Paraphrases for 73 Languages}},
  month        = mar,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.3707949},
  url          = {https://doi.org/10.5281/zenodo.3707949}
}

贡献

感谢 @pacman100 添加此数据集。

作者:

佚名

数据集大小:

30.76 MB