数据集:
projecte-aina/teca
任务:
文本分类语言:
ca计算机处理:
monolingual语言创建人:
found批注创建人:
expert-generated预印本库:
arxiv:2107.07903许可:
cc-by-nc-nd-4.0TE-ca 是一个包含21,163对前提和假设的加泰罗尼亚文文本蕴涵数据集,根据它们之间的推理关系(蕴涵、矛盾或中性)进行了注释。
此数据集由 BSC TeMU 作为 Projecte AINA 的一部分开发,以丰富 Catalan Language Understanding Benchmark (CLUB) 。
文本蕴涵、文本分类、语言模型
该数据集使用加泰罗尼亚语( ca-CA )。
三个JSON文件,每个拆分一个。
{ "id": 3247, "premise": "L'ONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "S'acorden unes recomanacions per les persones migrades a Marràqueix", "label": "0" }, { "id": 2825, "premise": "L'ONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Les persones migrades seran acollides a Marràqueix", "label": "1" }, { "id": 2431, "premise": "L'ONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "L'acord impulsat per l'ONU lluny de tancar-se", "label": "2" },
我们创建了这个数据集,以促进加泰罗尼亚语(一种资源稀缺语言)语言模型的发展。
源句子来自 Catalan Textual Corpus 和 VilaWeb 的新闻稿。
初始数据收集和标准化随机选择了来自 BSC Catalan Textual Corpus 的 12000 个句子,以及来自加泰罗尼亚新闻网站 VilaWeb 的 6200 个标题。我们按照不同的标准对它们进行了过滤,例如长度和独立可理解性。对于每个选择的文本,我们委托一组母语注释员撰写3个假设(对应每个蕴涵类别一个)。
由于不一致性,一些句对被排除在外。
资源语言的生产者是谁?加泰罗尼亚文本语料库由从网络爬虫和公共语料库中收集的多个语料库组成。可以在 here 找到更多信息。
VilaWeb 是加泰罗尼亚文新闻稿。
我们委托一组注释员撰写3个假设(对应每个蕴涵类别一个)。
注释员是谁?注释员是来自两家独立公司的母语协作者团队。
不包含个人或敏感信息。
我们希望这个数据集对加泰罗尼亚语(一种资源稀缺语言)语言模型的发展有所贡献。
[N/A]
[N/A]
巴塞罗那超级计算中心的文本挖掘部( bsc-temu@bsc.es )
该工作受 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya (在 Projecte AINA 框架内)的资助。
该作品根据 Attribution-NonCommercial-NoDerivatives 4.0 International License 授权。
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }