数据集:

projecte-aina/sts-ca

任务:

文本分类

子任务:

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

found

批注创建人:

expert-generated

预印本库:

arxiv:2107.07903

许可:

cc-by-4.0

数据集介绍文件清单

英文

STS-ca数据集卡片

数据集摘要

STS-ca语料库是评估加泰罗尼亚语义文本相似性的基准。该数据集是 Projecte AINA 的一部分，旨在丰富 Catalan Language Understanding Benchmark (CLUB) 。

支持的任务和排行榜

该数据集可用于构建和评分加泰罗尼亚语的语义相似性模型。

语言

该数据集使用加泰罗尼亚语 (ca-CA)。

数据集结构

数据实例

按照以下 SemEval challenges 进行：

index (int)
id (str)：句子对分配的唯一ID。
句子 1 (str)：第一个句子对。
句子 2 (str)：第二个句子对。
avg (float)：黄金真值。

示例

index	id	sentence 1	sentence 2	avg
19	ACN2_131	Els manifestants ocupen l'Imperial Tarraco durant una hora fent jocs de taula	Els manifestants ocupen l'Imperial Tarraco i fan jocs de taula	4
21	TE2_80	El festival comptarà amb cinc escenaris i se celebrarà entre el 7 i el 9 de juliol al Parc del Fòrum.	El festival se celebrarà el 7 i 8 de juliol al Parc del Fòrum de Barcelona	3
23	Oscar2_609	Aleshores hi posarem un got de vi i continuarem amb la cocció fins que s'hagi evaporat el vi i ho salpebrarem.	Mentre, hi posarem el vi al sofregit i deixarem coure uns 7/8′, fins que el vi s'evapori.	3
25	Viqui2_48	L'arboç grec (Arbutus andrachne) és un arbust o un petit arbre dins la família ericàcia.	El ginjoler ("Ziziphus jujuba") és un arbust o arbre petit de la família de les "Rhamnaceae".	2.75
27	ACN2_1072	Mentre han estat davant la comandància, els manifestants han cridat consignes a favor de la independència i han cantat cançons com 'L'estaca'.	Entre les consignes que han cridat s'ha pogut escoltar càntics com 'els carrers seran sempre nostres' i contínues consignes en favor de la independència.	3
28	Viqui2_587	Els cinc municipis ocupen una superfície de poc més de 100 km2 i conjuntament sumen una població total aproximada de 3.691 habitants (any 2019).	Té una població d'1.811.177 habitants (2005) repartits en 104 municipis d'una superfície total de 14.001 km2.	2.67

数据字段

该数据集遵循 SemEval 挑战的格式和约定。

数据拆分

sts_cat_dev_v1.tsv（500个标注对）
sts_cat_train_v1.tsv（2073个标注对）
sts_cat_test_v1.tsv（500个标注对）

数据集创建

策划理由

我们创建了这个数据集，以促进加泰罗尼亚语的语言模型开发，这是一种资源稀缺的语言。

来源数据

初始数据收集和标准化

从 Catalan Textual Corpus 的 3 个加泰罗尼亚子语料库中随机提取了句子： ACN 、 Oscar 和 Wikipedia 。

我们使用来自Doc2Vec、Jaccard和类似BERT的模型（“ distiluse-base-multilingual-cased-v2 ”）的度量组合生成候选对。最后，我们在提供给注释团队之前手动审查生成的对，拒绝非相关对（相同或不符合语法的句子等）。

每个句子对的四个注释的平均值被选为“基准事实”，除非注释者与平均值相差超过一单位。在这些情况下，我们舍弃不同的注释，并重新计算不包括它的平均值。我们还排除了45个句子对，因为注释者的意见分歧太大。

为了与其他语言中的类似数据集兼容，我们尽可能接近现有的策划指南。

谁是源语言制片人？

Catalan Textual Corpus 是一种包含了1760万令牌的加泰罗尼亚语网络语料库，来源包括：DOGC、CaWac（未去重版本）、Oscar（未洗牌版本）、Open Subtitles、加泰罗尼亚语维基百科；以及三个全新的扫描：加泰罗尼亚语常规扫描，通过扫描500个最受欢迎的.cat和.ad域获得；加泰罗尼亚政府扫描，通过扫描 .gencat 域和子域名（属于加泰罗尼亚政府）获得；以及来自加泰罗尼亚新闻社的具有220,000个新闻项目（从2015年3月到2020年10月），是从加泰罗尼亚新闻社抓取的。

注释

注释过程

我们委托了一个注释团队对每对句子的相似性进行手动注释，遵循提供的指导方针。

谁是注释者？

由来自2个不同公司的母语人士组成的团队独立工作。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望这个数据集有助于加泰罗尼亚语言模型的发展，这是一种资源稀缺的语言。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心（ TeMU ）的文本挖掘单元 ( bsc-temu@bsc.es )

本工作是由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内的资助下完成的。

许可信息

本作品根据 Attribution-ShareAlike 4.0 International License 许可

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI

贡献

[N/A]

作者:

projecte-aina

数据集大小:

596.82 KB