数据集:
projecte-aina/Parafraseja
Parafraseja 是一个包含21,984个句子对的数据集,每个句子对都有一个标签,指示它们是否是同义句。这些原始句子收集自 TE-ca 和 STS-ca 。每个句子都由一个注释者编写了一个同义句和一个非同义句。有关此注释的指南可供查阅。
此数据集主要用于训练同义句检测模型。
数据集使用的语言是加泰罗尼亚语 (ca-CA)。
数据集以 JSONL 格式的句子对及其标签为主要组成。
{ "id": "te1_14977_1", "source": "teca", "original": "La 2a part consta de 23 cap\u00edtols, cadascun dels quals descriu un ocell diferent.", "new": "La segona part consisteix en vint-i-tres cap\u00edtols, cada un dels quals descriu un ocell diferent.", "label": "Parafrasis" }
我们创建这个语料库是为了为加泰罗尼亚语这种资源稀缺的语言开发语言模型做出贡献。
从TE-ca收集到11,543个原始句子,从STS-ca收集到10,441个原始句子。
谁是源语言的制造者?TE-ca 和 STS-ca 来自 Catalan Textual Corpus ,它由从网络爬取和公共语料库收集的几个语料库组成,以及 Vilaweb ,加泰罗尼亚语新闻线索。
数据集中的每对句子都用 "Parafrasis" 或 "No Parafrasis" 进行标注。
注释过程注释过程由一个注释者完成,并由另一个注释者进行了审核。
谁是注释者?注释者是加泰罗尼亚语的母语者,具有语言学背景。
不包含任何个人或敏感信息。
我们希望这个语料库能够为加泰罗尼亚语这种资源稀缺的语言的语言模型的发展做出贡献。
我们意识到这些数据可能存在偏见。我们没有采取任何措施来减少其影响。
[无]
巴塞罗那超级计算中心 ( bsc-temu@bsc.es ) 的文本挖掘单位 (TeMU)
此工作得到了 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助,属于 Projecte AINA 框架内的一部分。
Creative Commons Attribution Non-commercial No-Derivatives 4.0 International 。
[无]