数据集:
projecte-aina/sts-ca
任务:
文本分类语言:
ca计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated预印本库:
arxiv:2107.07903许可:
cc-by-4.0STS-ca语料库是评估加泰罗尼亚语义文本相似性的基准。该数据集是 Projecte AINA 的一部分,旨在丰富 Catalan Language Understanding Benchmark (CLUB) 。
该数据集可用于构建和评分加泰罗尼亚语的语义相似性模型。
该数据集使用加泰罗尼亚语 (ca-CA)。
按照以下 SemEval challenges 进行:
index | id | sentence 1 | sentence 2 | avg |
---|---|---|---|---|
19 | ACN2_131 | Els manifestants ocupen l'Imperial Tarraco durant una hora fent jocs de taula | Els manifestants ocupen l'Imperial Tarraco i fan jocs de taula | 4 |
21 | TE2_80 | El festival comptarà amb cinc escenaris i se celebrarà entre el 7 i el 9 de juliol al Parc del Fòrum. | El festival se celebrarà el 7 i 8 de juliol al Parc del Fòrum de Barcelona | 3 |
23 | Oscar2_609 | Aleshores hi posarem un got de vi i continuarem amb la cocció fins que s'hagi evaporat el vi i ho salpebrarem. | Mentre, hi posarem el vi al sofregit i deixarem coure uns 7/8′, fins que el vi s'evapori. | 3 |
25 | Viqui2_48 | L'arboç grec (Arbutus andrachne) és un arbust o un petit arbre dins la família ericàcia. | El ginjoler ("Ziziphus jujuba") és un arbust o arbre petit de la família de les "Rhamnaceae". | 2.75 |
27 | ACN2_1072 | Mentre han estat davant la comandància, els manifestants han cridat consignes a favor de la independència i han cantat cançons com 'L'estaca'. | Entre les consignes que han cridat s'ha pogut escoltar càntics com 'els carrers seran sempre nostres' i contínues consignes en favor de la independència. | 3 |
28 | Viqui2_587 | Els cinc municipis ocupen una superfície de poc més de 100 km2 i conjuntament sumen una població total aproximada de 3.691 habitants (any 2019). | Té una població d'1.811.177 habitants (2005) repartits en 104 municipis d'una superfície total de 14.001 km2. | 2.67 |
该数据集遵循 SemEval 挑战的格式和约定。
sts_cat_dev_v1.tsv(500个标注对)
sts_cat_train_v1.tsv(2073个标注对)
sts_cat_test_v1.tsv(500个标注对)
我们创建了这个数据集,以促进加泰罗尼亚语的语言模型开发,这是一种资源稀缺的语言。
从 Catalan Textual Corpus 的 3 个加泰罗尼亚子语料库中随机提取了句子: ACN 、 Oscar 和 Wikipedia 。
我们使用来自Doc2Vec、Jaccard和类似BERT的模型(“ distiluse-base-multilingual-cased-v2 ”)的度量组合生成候选对。最后,我们在提供给注释团队之前手动审查生成的对,拒绝非相关对(相同或不符合语法的句子等)。
每个句子对的四个注释的平均值被选为“基准事实”,除非注释者与平均值相差超过一单位。在这些情况下,我们舍弃不同的注释,并重新计算不包括它的平均值。我们还排除了45个句子对,因为注释者的意见分歧太大。
为了与其他语言中的类似数据集兼容,我们尽可能接近现有的策划指南。
谁是源语言制片人?Catalan Textual Corpus 是一种包含了1760万令牌的加泰罗尼亚语网络语料库,来源包括:DOGC、CaWac(未去重版本)、Oscar(未洗牌版本)、Open Subtitles、加泰罗尼亚语维基百科;以及三个全新的扫描:加泰罗尼亚语常规扫描,通过扫描500个最受欢迎的.cat和.ad域获得;加泰罗尼亚政府扫描,通过扫描 .gencat 域和子域名(属于加泰罗尼亚政府)获得;以及来自加泰罗尼亚新闻社的具有220,000个新闻项目(从2015年3月到2020年10月),是从加泰罗尼亚新闻社抓取的。
我们委托了一个注释团队对每对句子的相似性进行手动注释,遵循提供的指导方针。
谁是注释者?由来自2个不同公司的母语人士组成的团队独立工作。
不包含个人或敏感信息。
我们希望这个数据集有助于加泰罗尼亚语言模型的发展,这是一种资源稀缺的语言。
[N/A]
[N/A]
巴塞罗那超级计算中心( TeMU )的文本挖掘单元 ( bsc-temu@bsc.es )
本工作是由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架内的资助下完成的。
本作品根据 Attribution-ShareAlike 4.0 International License 许可
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
[N/A]