数据集:
BSC-LT/sts-ca
语言:
ca如果您在您的工作中使用了任何这些资源(数据集或模型),请引用我们最新的论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
https://doi.org/10.5281/zenodo.4529184
STS语料库是用于评估加泰罗尼亚语中语义文本相似度的基准。它包含3000多个句对,通过使用从0(完全不相似)到5(语义等价)的等级来注释它们之间的语义相似度。这是由4个不同的标注者根据我们的指南手动完成的,这些指南基于之前的SemEval挑战的工作( https://www.aclweb.org/anthology/S13-1004.pdf )。
源数据是从加泰罗尼亚文本语料库( https://doi.org/10.5281/zenodo.4519349 )中提取的句子,使用CC-by-SA-4.0许可证( https://creativecommons.org/licenses/by-sa/4.0/ )使用。数据集也采用相同的许可证发布。
这个数据集由BSC TeMU作为AINA项目的一部分开发,旨在丰富加泰罗尼亚语言理解基准(CLUB)。
这是包含完整人工和自动注释以及QA分析脚本的数据集的1.0.1版本。它还具有更准确的许可证。
这个数据集可以用于构建和评分语义相似性模型。
语义文本相似性,语言模型
CA-加泰罗尼亚语
* dev.tsv * sts-ca.py * test.tsv * train.tsv * README
遵循SemEval挑战( https://www.aclweb.org/anthology/S13-1004.pdf )。
SemEval挑战的格式和约定( https://www.aclweb.org/anthology/S13-1004.pdf )。
index | id | sentence 1 | sentence 2 | avg |
---|---|---|---|---|
19 | ACN2_131 | Els manifestants ocupen l'Imperial Tarraco durant una hora fent jocs de taula | Els manifestants ocupen l'Imperial Tarraco i fan jocs de taula | 4 |
21 | TE2_80 | El festival comptarà amb cinc escenaris i se celebrarà entre el 7 i el 9 de juliol al Parc del Fòrum. | El festival se celebrarà el 7 i 8 de juliol al Parc del Fòrum de Barcelona | 3 |
23 | Oscar2_609 | Aleshores hi posarem un got de vi i continuarem amb la cocció fins que s'hagi evaporat el vi i ho salpebrarem. | Mentre, hi posarem el vi al sofregit i deixarem coure uns 7/8′, fins que el vi s'evapori. | 3 |
25 | Viqui2_48 | L'arboç grec (Arbutus andrachne) és un arbust o un petit arbre dins la família ericàcia. | El ginjoler ("Ziziphus jujuba") és un arbust o arbre petit de la família de les "Rhamnaceae". | 2.75 |
27 | ACN2_1072 | Mentre han estat davant la comandància, els manifestants han cridat consignes a favor de la independència i han cantat cançons com 'L'estaca'. | Entre les consignes que han cridat s'ha pogut escoltar càntics com 'els carrers seran sempre nostres' i contínues consignes en favor de la independència. | 3 |
28 | Viqui2_587 | Els cinc municipis ocupen una superfície de poc més de 100 km2 i conjuntament sumen una població total aproximada de 3.691 habitants (any 2019). | Té una població d'1.811.177 habitants (2005) repartits en 104 municipis d'una superfície total de 14.001 km2. | 2.67 |
从3个加泰罗尼亚语语料库中提取了随机句子:ACN、Oscar和Wikipedia,并使用来自Doc2Vec、Jaccard和一个BERT-like模型(“distiluse-base-multilingual-cased-v2”, link )的组合生成候选句对。最后,我们在将其提供给注释团队之前,手动审查生成的句对以拒绝非相关句对(相同或语法不正确的句子等)。每个句子对的四个注释的平均值被选为“基本事实”,除非一个标注者与平均值相差超过一个单位。在这些情况下,我们丢弃不一致的注释,并重新计算不包括它的平均值。我们还丢弃了45个句子对,因为标注者意见分歧太大。
为了与其他语言的类似数据集兼容,我们尽可能地遵循现有的策展指南。
初始数据收集和归一化来源语言的生产者是谁?加泰罗尼亚文本语料库是一个由多个来源构建的、包含1760亿标记的加泰罗尼亚网络语料库:现有的语料库,如DOGC、CaWac(非去重版本)、Oscar(非洗牌版本)、开放字幕、加泰罗尼亚维基百科;以及三个全新的爬行:加泰罗尼亚常规爬行,通过爬行500个最受欢迎的.cat和.ad域;加泰罗尼亚政府爬行,通过爬行属于加泰罗尼亚政府的.gencat域和子域;以及从加泰罗尼亚通讯社爬行的ACN语料库,包含自2015年3月至2020年10月的22万条新闻。
注释过程评注者是谁?来自2家不同公司的母语人士团队。
Carlos Rodríguez和 Carme Armentano,来自BSC-CNS
不包括个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos或Carme Armentano-Oller(bsc-temu@bsc.es)
此作品根据 Attribution-ShareAlike 4.0 International License 许可证授权。