数据集:

projecte-aina/Parafraseja

任务:

文本分类

子任务:

multi-input-text-classification

语言:

计算机处理:

monolingual

语言创建人:

found

批注创建人:

CLiC-UB

许可:

cc-by-nc-nd-4.0

数据集介绍文件清单

英文

Parafraseja 数据集卡片

数据集摘要

Parafraseja 是一个包含21,984个句子对的数据集，每个句子对都有一个标签，指示它们是否是同义句。这些原始句子收集自 TE-ca 和 STS-ca 。每个句子都由一个注释者编写了一个同义句和一个非同义句。有关此注释的指南可供查阅。

支持的任务和榜单

此数据集主要用于训练同义句检测模型。

语言

数据集使用的语言是加泰罗尼亚语 (ca-CA)。

数据集结构

数据集以 JSONL 格式的句子对及其标签为主要组成。

数据实例

  {
    "id": "te1_14977_1", 
    "source": "teca", 
    "original": "La 2a part consta de 23 cap\u00edtols, cadascun dels quals descriu un ocell diferent.", 
    "new": "La segona part consisteix en vint-i-tres cap\u00edtols, cada un dels quals descriu un ocell diferent.", 
    "label": "Parafrasis"
   }

数据字段

original：原始句子
new：新句子，可能是同义句或非同义句
label：原始句子和新句子之间的关系

数据拆分

dev.json：2,000个示例
test.json：4,000个示例
train.json：15,984个示例

数据集创建

策划理由

我们创建这个语料库是为了为加泰罗尼亚语这种资源稀缺的语言开发语言模型做出贡献。

来源数据

此数据集的原始句子来自于 STS-ca 和 TE-ca 。

从TE-ca收集到11,543个原始句子，从STS-ca收集到10,441个原始句子。

谁是源语言的制造者？

TE-ca 和 STS-ca 来自 Catalan Textual Corpus ，它由从网络爬取和公共语料库收集的几个语料库组成，以及 Vilaweb ，加泰罗尼亚语新闻线索。

注释

数据集中的每对句子都用 "Parafrasis" 或 "No Parafrasis" 进行标注。

注释过程

注释过程由一个注释者完成，并由另一个注释者进行了审核。

谁是注释者？

注释者是加泰罗尼亚语的母语者，具有语言学背景。

个人和敏感信息

不包含任何个人或敏感信息。

数据使用的注意事项

数据集的社会影响

我们希望这个语料库能够为加泰罗尼亚语这种资源稀缺的语言的语言模型的发展做出贡献。

偏见讨论

我们意识到这些数据可能存在偏见。我们没有采取任何措施来减少其影响。

其他已知限制

[无]

附加信息

数据集策划者

巴塞罗那超级计算中心 ( bsc-temu@bsc.es ) 的文本挖掘单位 (TeMU)

此工作得到了 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助，属于 Projecte AINA 框架内的一部分。

许可信息

Creative Commons Attribution Non-commercial No-Derivatives 4.0 International 。

贡献

[无]

作者:

projecte-aina

数据集大小:

5.87 MB