数据集:

BSC-LT/sts-ca

语言:

ca
英文

语义文本相似度在加泰罗尼亚语中

BibTeX引用

如果您在您的工作中使用了任何这些资源(数据集或模型),请引用我们最新的论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

数字对象标识符(DOI)和访问数据集文件

https://doi.org/10.5281/zenodo.4529184

介绍

STS语料库是用于评估加泰罗尼亚语中语义文本相似度的基准。它包含3000多个句对,通过使用从0(完全不相似)到5(语义等价)的等级来注释它们之间的语义相似度。这是由4个不同的标注者根据我们的指南手动完成的,这些指南基于之前的SemEval挑战的工作( https://www.aclweb.org/anthology/S13-1004.pdf )。

源数据是从加泰罗尼亚文本语料库( https://doi.org/10.5281/zenodo.4519349 )中提取的句子,使用CC-by-SA-4.0许可证( https://creativecommons.org/licenses/by-sa/4.0/ )使用。数据集也采用相同的许可证发布。

这个数据集由BSC TeMU作为AINA项目的一部分开发,旨在丰富加泰罗尼亚语言理解基准(CLUB)。

这是包含完整人工和自动注释以及QA分析脚本的数据集的1.0.1版本。它还具有更准确的许可证。

这个数据集可以用于构建和评分语义相似性模型。

支持的任务和排行榜

语义文本相似性,语言模型

语言

CA-加泰罗尼亚语

目录结构

* dev.tsv
* sts-ca.py
* test.tsv
* train.tsv
* README

数据集结构

数据实例

遵循SemEval挑战( https://www.aclweb.org/anthology/S13-1004.pdf )。

数据字段

SemEval挑战的格式和约定( https://www.aclweb.org/anthology/S13-1004.pdf )。

示例:

index id sentence 1 sentence 2 avg
19 ACN2_131 Els manifestants ocupen l'Imperial Tarraco durant una hora fent jocs de taula Els manifestants ocupen l'Imperial Tarraco i fan jocs de taula 4
21 TE2_80 El festival comptarà amb cinc escenaris i se celebrarà entre el 7 i el 9 de juliol al Parc del Fòrum. El festival se celebrarà el 7 i 8 de juliol al Parc del Fòrum de Barcelona 3
23 Oscar2_609 Aleshores hi posarem un got de vi i continuarem amb la cocció fins que s'hagi evaporat el vi i ho salpebrarem. Mentre, hi posarem el vi al sofregit i deixarem coure uns 7/8′, fins que el vi s'evapori. 3
25 Viqui2_48 L'arboç grec (Arbutus andrachne) és un arbust o un petit arbre dins la família ericàcia. El ginjoler ("Ziziphus jujuba") és un arbust o arbre petit de la família de les "Rhamnaceae". 2.75
27 ACN2_1072 Mentre han estat davant la comandància, els manifestants han cridat consignes a favor de la independència i han cantat cançons com 'L'estaca'. Entre les consignes que han cridat s'ha pogut escoltar càntics com 'els carrers seran sempre nostres' i contínues consignes en favor de la independència. 3
28 Viqui2_587 Els cinc municipis ocupen una superfície de poc més de 100 km2 i conjuntament sumen una població total aproximada de 3.691 habitants (any 2019). Té una població d'1.811.177 habitants (2005) repartits en 104 municipis d'una superfície total de 14.001 km2. 2.67

数据拆分

  • sts_cat_dev_v1.tsv(493个注释的句对)
  • sts_cat_train_v1.tsv(492个注释的句对)
  • sts_cat_test_v1.tsv(2043个注释的句对)

数据集创建

方法论

从3个加泰罗尼亚语语料库中提取了随机句子:ACN、Oscar和Wikipedia,并使用来自Doc2Vec、Jaccard和一个BERT-like模型(“distiluse-base-multilingual-cased-v2”, link )的组合生成候选句对。最后,我们在将其提供给注释团队之前,手动审查生成的句对以拒绝非相关句对(相同或语法不正确的句子等)。每个句子对的四个注释的平均值被选为“基本事实”,除非一个标注者与平均值相差超过一个单位。在这些情况下,我们丢弃不一致的注释,并重新计算不包括它的平均值。我们还丢弃了45个句子对,因为标注者意见分歧太大。

策展理由

为了与其他语言的类似数据集兼容,我们尽可能地遵循现有的策展指南。

源数据

初始数据收集和归一化来源语言的生产者是谁?加泰罗尼亚文本语料库是一个由多个来源构建的、包含1760亿标记的加泰罗尼亚网络语料库:现有的语料库,如DOGC、CaWac(非去重版本)、Oscar(非洗牌版本)、开放字幕、加泰罗尼亚维基百科;以及三个全新的爬行:加泰罗尼亚常规爬行,通过爬行500个最受欢迎的.cat和.ad域;加泰罗尼亚政府爬行,通过爬行属于加泰罗尼亚政府的.gencat域和子域;以及从加泰罗尼亚通讯社爬行的ACN语料库,包含自2015年3月至2020年10月的22万条新闻。

注释

注释过程评注者是谁?来自2家不同公司的母语人士团队。

数据集策展人员

Carlos Rodríguez和 Carme Armentano,来自BSC-CNS

个人和敏感信息

不包括个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或Carme Armentano-Oller(bsc-temu@bsc.es)

许可证

此作品根据 Attribution-ShareAlike 4.0 International License 许可证授权。