数据集:
tapaco
计算机处理:
multilingual语言创建人:
crowdsourced批注创建人:
machine-generated源数据集:
extended|other-tatoeba许可:
cc-by-2.0TaPaCo语料库是从Tatoeba数据库中提取的73种语言的自由可用释义语料库。Tatoeba是一个以语言学习者为主的众包项目,旨在为特定的语言结构和单词提供例句和翻译。释义语料库是通过用Tatoeba句子和“意思相同”的句子之间的等价链接填充图形来创建的。然后遍历该图形以提取释义集合。应用了几个与语言无关的过滤器和修剪步骤以去除无趣的句子。对三种语言进行的手动评估表明,推断得出的释义约有一半到四分之三是正确的,其余大部分要么是正确但平凡的,要么是中性化形态区别的近义释义。该语料库总共包含190万个句子,每种语言约有20-25万个句子。涵盖了我们所知道的其他释义数据集中没有的一系列语言。
释义检测和生成已成为NLP中的热门任务,并逐渐整合到各种常见的下游任务中,如机器翻译、信息检索、问答和语义解析。大多数现有数据集只涵盖单个语言(在大多数情况下为英语)或少数语言。此外,一些释义数据集侧重于词汇和短语级别的释义,而其他数据集则是使用机器翻译进行(半)自动创建的。
每种语言的句子数量在200到25万之间,这使得该数据集更适合用于微调和评估而不适合训练。它非常适合用于释义生成模型的多参考评估,因为通常没有一种正确的方法来释义给定的输入句子。
该数据集包含以下语言的释义:阿非利卡语、阿拉伯语、阿塞拜疆语、白俄罗斯语、柏柏尔语、保加利亚语、孟加拉语、布列塔尼语、加泰罗尼亚语;瓦伦西亚语、查瓦卡诺语、中文普通话、捷克语、丹麦语、德语、希腊语、现代英语、世界语、西班牙语;卡斯蒂利亚语、爱沙尼亚语、巴斯克语、芬兰语、法语、加利西亚语、格罗宁根语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、国际辅助语言协会语、印度尼西亚语、Interlingue语;西方语、伊多语、冰岛语、意大利语、日语、洛布雅语、卡比尔语、朝鲜语、康沃尔语、拉丁语、诺瓦敏语、立陶宛语、马其顿语、马拉地语、博克马尔语、挪威语;挪威博克马尔语、低地德语;下萨克森语;德文、低地撒克逊语、荷兰语;佛兰芒语、]古俄语、土耳其语、奥斯曼语(1500-1928)、伊朗波斯尼亚语、波兰语、葡萄牙语、伦迪语、罗马尼亚语;摩尔达维亚语;摩尔多瓦语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、土库曼语、塔加洛语、克林贡语;克林贡-霍尔语、托基波纳语、土耳其语、鞑靼语、维吾尔语、乌克兰语、乌尔都语、越南语、沃拉普克语、瓦赖语、吴语和粤语
每个数据实例对应一个释义,例如:
{ 'paraphrase_set_id': '1483', 'sentence_id': '5778896', 'paraphrase': 'Ɣremt adlis-a.', 'lists': ['7546'], 'tags': [''], 'language': 'ber' }
每个对话实例具有以下字段:
该数据集只有一个“train”拆分,总共包含190万个句子,每种语言有20-25万个句子
[需要更多信息]
[需要更多信息]
谁是源语言制片人?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Creative Commons Attribution 2.0 Generic
@dataset{scherrer_yves_2020_3707949, author = {Scherrer, Yves}, title = {{TaPaCo: A Corpus of Sentential Paraphrases for 73 Languages}}, month = mar, year = 2020, publisher = {Zenodo}, version = {1.0}, doi = {10.5281/zenodo.3707949}, url = {https://doi.org/10.5281/zenodo.3707949} }
感谢 @pacman100 添加此数据集。