数据集:
projecte-aina/tecla
TeCla(文本分类)是用于主题多类文本分类任务的加泰罗尼亚新闻语料库。目前版本(2.0)包含113,376篇文章,根据粗粒度和细粒度的类别结构进行分类。4个粗粒度类别中的每个类别都接受53个细粒度类别中的一部分。
先前的版本(1.0.1)仍然可以在 https://zenodo.org/record/4761505 找到
此数据集由 BSC TeMU 开发,作为 Projecte AINA 的一部分,以丰富 Catalan Language Understanding Benchmark (CLUB) 。
文本分类,语言模型
数据集使用加泰罗尼亚语(ca-CA)。
三个json文件,每个拆分一个。
每个示例包含以下3个字段:
{"version": "2.0", "data": [ { 'sentence': "La setena edició del Festival Fantàstik inclourà les cintes 'Matar a dios' i 'Mandy' i un homenatge a 'Mi vecino Totoro'. Es projectaran 22 curtmetratges seleccionats d'entre més de 500 presentats a nivell internacional. El Centre Cultural de Granollers acull del 8 a l'11 de novembre la setena edició del Festival Fantàstik. El certamen, que s'allargarà un dia, arrencarà amb la projecció de la cinta de Caye Casas i Albert Pide 'Matar a Dios'. Els dos directors estaran presents en la inauguració de la cita. A més, els asssitents podran gaudir de 'Mandy', el darrer treball de Nicolas Cage. Altres llargmetratges seleccionats per aquest any són 'Aterrados' (2017), 'Revenge' (2017), 'A Mata Negra' (2018), 'Top Knot Detective' (2018) i 'La Gran Desfeta' (2018). A més, amb motiu del trentè aniversari de la pel·lícula 'El meu veí Totoro' es durà a terme l'exposició dedicada a aquest film '30 anys 30 artistes' comissariada per Jordi Pastor i Reinaldo Pereira. La mostra '30 anys 30 artistes' recull els treballs de trenta artistes d'estils diferents al voltant de la figura de Totoro i el seu director. Es podrà veure durant els dies de festival i es complementarà amb la projecció de la pel·lícula el diumenge 11 de novembre. Al llarg del festival també es projectaran els 22 curtmetratges prèviament seleccionats d'entre més de 500 presentats a nivell internacional. El millor tindrà una dotació de 1000 euros fruit de la unió de forces amb el Mercat Audiovisual de Catalunya.", 'label1': 'Cultura', 'label2': 'Cinema' }, ... ] }标签
训练、开发和测试集按照0.8、0.05和0.15的比例分层创建。每个拆分的大小如下:
我们创建此数据集是为了为加泰罗尼亚语这种资源稀缺语言的语言模型的开发做出贡献。
源数据是来自加泰罗尼亚新闻社( Agència Catalana de Notícies, ACN )网站的爬取文章。
我们从加泰罗尼亚新闻社( Agència Catalana de Notícies; ACN )通讯社档案中爬取了219,586篇文章,最新的数据来自2020年10月11日。
从爬取的数据中,我们选择了那些“section”和“subsection”类别符合ACN样式指南中预期的编码组合的文章,其中“section”符合包含子节和主题基础要求的要求(与地理定义的类别,如"Món"和"Unió Europea"相对)。原来属于“Unió Europea”部分的文章,与欧洲联盟的政治机构相关,因其与原始“Política”和“Unió Europea”的某些子节之间的紧密关联,被纳入“Política”粗粒度类别中(细粒度类别命名为“Unió Europea”)。
每个示例中的text字段是文章标题、副标题和正文的连接(在连接之前,如果标题和副标题缺少句号,则会添加一个句号)。文本的预处理是最小化的,仅包括删除每个文本中原始正文之前包含的模式“ACN {location}.-”以及原始用于分隔文本段落的换行符。
源语言的制作者是谁?加泰罗尼亚新闻社( Agència Catalana de Notícies; ACN )是由加泰罗尼亚政府通过公共公司Intracatalònia,SA拥有的新闻通讯社。它是欧洲最早成立的数字新闻通讯社之一,自1999年以来一直在运作(来源: wikipedia )。
爬取的数据中包含类别的标注,然后使用这些标注按照上述标准创建了该数据集。
标注者是谁?编辑人员对文章进行了不同主题部分和子节的分类,并且我们从元数据中提取了这些分类。
未包含个人或敏感信息。
我们希望这个数据集能够为加泰罗尼亚语的语言模型的开发做出贡献,该语言是一种资源稀缺的语言。
[N/A]
[N/A]
Irene Baucells(irene.baucells@bsc.es)、Casimiro Pio Carrino(casimiro.carrino@bsc.es)、Carlos Rodríguez(carlos.rodriguez1@bsc.es)和Carme Armentano(carme.armentano@bsc.es),来自 BSC-CNS 。
这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 的框架内资助。
此作品根据 Attribution-NonCommercial-NoDerivatives 4.0 International License 许可。