数据集:

projecte-aina/teca

语言:

ca

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

预印本库:

arxiv:2107.07903
英文

TE-ca 数据集卡片

数据集概述

TE-ca 是一个包含21,163对前提和假设的加泰罗尼亚文文本蕴涵数据集,根据它们之间的推理关系(蕴涵、矛盾或中性)进行了注释。

此数据集由 BSC TeMU 作为 Projecte AINA 的一部分开发,以丰富 Catalan Language Understanding Benchmark (CLUB)

支持的任务和排行榜

文本蕴涵、文本分类、语言模型

语言

该数据集使用加泰罗尼亚语( ca-CA )。

数据集结构

数据实例

三个JSON文件,每个拆分一个。

示例:

    
    {
        "id": 3247,
        "premise": "L'ONU adopta a Marràqueix un pacte no vinculant per les migracions",
        "hypothesis": "S'acorden unes recomanacions per les persones migrades a Marràqueix",
        "label": "0"
    },
    {
        "id": 2825,
        "premise": "L'ONU adopta a Marràqueix un pacte no vinculant per les migracions",
        "hypothesis": "Les persones migrades seran acollides a Marràqueix",
        "label": "1"
    },
    {
        "id": 2431,
        "premise": "L'ONU adopta a Marràqueix un pacte no vinculant per les migracions",
        "hypothesis": "L'acord impulsat per l'ONU lluny de tancar-se",
        "label": "2"
    },

数据字段

  • premise: 文本前提
  • hypothesis: 与前提相关的文本假设
  • label: 前提和假设之间的关系:
    • 0: 蕴涵
    • 1: 中性
    • 2: 矛盾

数据拆分

  • dev.json: 2116个示例
  • test.json: 2117个示例
  • train.json: 16930个示例

数据集创建

策划原理

我们创建了这个数据集,以促进加泰罗尼亚语(一种资源稀缺语言)语言模型的发展。

数据来源

源句子来自 Catalan Textual Corpus VilaWeb 的新闻稿。

初始数据收集和标准化

随机选择了来自 BSC Catalan Textual Corpus 的 12000 个句子,以及来自加泰罗尼亚新闻网站 VilaWeb 的 6200 个标题。我们按照不同的标准对它们进行了过滤,例如长度和独立可理解性。对于每个选择的文本,我们委托一组母语注释员撰写3个假设(对应每个蕴涵类别一个)。

由于不一致性,一些句对被排除在外。

资源语言的生产者是谁?

加泰罗尼亚文本语料库由从网络爬虫和公共语料库中收集的多个语料库组成。可以在 here 找到更多信息。

VilaWeb 是加泰罗尼亚文新闻稿。

注释

注释过程

我们委托一组注释员撰写3个假设(对应每个蕴涵类别一个)。

注释员是谁?

注释员是来自两家独立公司的母语协作者团队。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望这个数据集对加泰罗尼亚语(一种资源稀缺语言)语言模型的发展有所贡献。

关于偏见的讨论

[N/A]

其他已知限制

[N/A]

其他信息

数据集策划者

巴塞罗那超级计算中心的文本挖掘部( bsc-temu@bsc.es )

该工作受 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya (在 Projecte AINA 框架内)的资助。

许可信息

该作品根据 Attribution-NonCommercial-NoDerivatives 4.0 International License 授权。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI