数据集:

projecte-aina/tecla

语言:

ca

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated
英文

TeCla数据集数据卡片

数据集概述

TeCla(文本分类)是用于主题多类文本分类任务的加泰罗尼亚新闻语料库。目前版本(2.0)包含113,376篇文章,根据粗粒度和细粒度的类别结构进行分类。4个粗粒度类别中的每个类别都接受53个细粒度类别中的一部分。

先前的版本(1.0.1)仍然可以在 https://zenodo.org/record/4761505 找到

此数据集由 BSC TeMU 开发,作为 Projecte AINA 的一部分,以丰富 Catalan Language Understanding Benchmark (CLUB)

支持的任务和排行榜

文本分类,语言模型

语言

数据集使用加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

三个json文件,每个拆分一个。

数据字段

每个示例包含以下3个字段:

  • text:文章文本(字符串)
  • label1:粗粒度类别
  • label2:细粒度类别
示例:
{"version": "2.0",
 "data":
   [
    {
     'sentence': "La setena edició del Festival Fantàstik inclourà les cintes 'Matar a dios' i 'Mandy' i un homenatge a 'Mi vecino Totoro'. Es projectaran 22 curtmetratges seleccionats d'entre més de 500 presentats a nivell internacional. El Centre Cultural de Granollers acull del 8 a l'11 de novembre la setena edició del Festival Fantàstik. El certamen, que s'allargarà un dia, arrencarà amb la projecció de la cinta de Caye Casas i Albert Pide 'Matar a Dios'. Els dos directors estaran presents en la inauguració de la cita. A més, els asssitents podran gaudir de 'Mandy', el darrer treball de Nicolas Cage. Altres llargmetratges seleccionats per aquest any són 'Aterrados' (2017), 'Revenge' (2017), 'A Mata Negra' (2018), 'Top Knot Detective' (2018) i 'La Gran Desfeta' (2018). A més, amb motiu del trentè aniversari de la pel·lícula 'El meu veí Totoro' es durà a terme l'exposició dedicada a aquest film '30 anys 30 artistes' comissariada per Jordi Pastor i Reinaldo Pereira. La mostra '30 anys 30 artistes' recull els treballs de trenta artistes d'estils diferents al voltant de la figura de Totoro i el seu director. Es podrà veure durant els dies de festival i es complementarà amb la projecció de la pel·lícula el diumenge 11 de novembre. Al llarg del festival també es projectaran els 22 curtmetratges prèviament seleccionats d'entre més de 500 presentats a nivell internacional. El millor tindrà una dotació de 1000 euros fruit de la unió de forces amb el Mercat Audiovisual de Catalunya.", 
    'label1': 'Cultura',
    'label2': 'Cinema'
    },
    ...
  ]
}


标签
  • label1:'Societat'(社会)、'Política'(政治)、'Economia'(经济)、'Cultura'(文化)
  • label2:'Llengua'(语言)、'Infraestructures'(基础设施)、'Arts'(艺术)、'Parlament'(议会)、'Noves tecnologies'(新技术)、'Castells'(城堡)、'Successos'(事件)、'Empresa'(公司)、'Mobilitat'(移动性)、'Teatre'(戏剧)、'Treball'(工作)、'Logística'(物流)、'Urbanisme'(城市规划)、'Govern'(政府)、'Entitats'(实体)、'Finances'(财政)、'Govern espanyol'(西班牙政府)、'Trànsit'(交通)、'Indústria'(工业)、'Esports'(体育)、'Exteriors'(外交)、'Medi ambient'(环境)、'Habitatge'(住房)、'Salut'(健康)、'Equipaments i patrimoni'(设施和文化遗产)、'Recerca'(研究)、'Cooperació'(合作)、'Innovació'(创新)、'Agroalimentació'(农业食品)、'Policial'(警察)、'Serveis Socials'(社会服务)、'Cinema'(电影)、'Memòria històrica'(历史记忆)、'Turisme'(旅游)、'Política municipal'(市政治)、'Comerç'(商业)、'Universitats'(大学)、'Hisenda'(财政)、'Judicial'(司法)、'Partits'(政党)、'Música'(音乐)、'Lletres'(文学)、'Religió'(宗教)、'Festa i cultura popular'(节日和流行文化)、'Unió Europea'(欧盟)、'Moda'(时尚)、'Moviments socials'(社会运动)、'Comptes públics'(公共账户)、'Immigració'(移民)、'Educació'(教育)、'Gastronomia'(美食)、'Meteorologia'(气象)、'Energia'(能源)

数据拆分

训练、开发和测试集按照0.8、0.05和0.15的比例分层创建。每个拆分的大小如下:

  • train.json:90700个示例
  • dev.json:5669个示例
  • test.json:17007个示例

数据集创建

策划理由

我们创建此数据集是为了为加泰罗尼亚语这种资源稀缺语言的语言模型的开发做出贡献。

来源数据

初始数据收集和标准化

源数据是来自加泰罗尼亚新闻社( Agència Catalana de Notícies, ACN )网站的爬取文章。

我们从加泰罗尼亚新闻社( Agència Catalana de Notícies; ACN )通讯社档案中爬取了219,586篇文章,最新的数据来自2020年10月11日。

从爬取的数据中,我们选择了那些“section”和“subsection”类别符合ACN样式指南中预期的编码组合的文章,其中“section”符合包含子节和主题基础要求的要求(与地理定义的类别,如"Món"和"Unió Europea"相对)。原来属于“Unió Europea”部分的文章,与欧洲联盟的政治机构相关,因其与原始“Política”和“Unió Europea”的某些子节之间的紧密关联,被纳入“Política”粗粒度类别中(细粒度类别命名为“Unió Europea”)。

每个示例中的text字段是文章标题、副标题和正文的连接(在连接之前,如果标题和副标题缺少句号,则会添加一个句号)。文本的预处理是最小化的,仅包括删除每个文本中原始正文之前包含的模式“ACN {location}.-”以及原始用于分隔文本段落的换行符。

源语言的制作者是谁?

加泰罗尼亚新闻社( Agència Catalana de Notícies; ACN )是由加泰罗尼亚政府通过公共公司Intracatalònia,SA拥有的新闻通讯社。它是欧洲最早成立的数字新闻通讯社之一,自1999年以来一直在运作(来源: wikipedia )。

标注

标注流程

爬取的数据中包含类别的标注,然后使用这些标注按照上述标准创建了该数据集。

标注者是谁?

编辑人员对文章进行了不同主题部分和子节的分类,并且我们从元数据中提取了这些分类。

个人和敏感信息

未包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望这个数据集能够为加泰罗尼亚语的语言模型的开发做出贡献,该语言是一种资源稀缺的语言。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

Irene Baucells(irene.baucells@bsc.es)、Casimiro Pio Carrino(casimiro.carrino@bsc.es)、Carlos Rodríguez(carlos.rodriguez1@bsc.es)和Carme Armentano(carme.armentano@bsc.es),来自 BSC-CNS

这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 的框架内资助。

许可信息

此作品根据 Attribution-NonCommercial-NoDerivatives 4.0 International License 许可。

引用信息

DOI