数据集:
PlanTL-GOB-ES/WikiCAT_esv2
仓库
WikiCAT_ca是用于主题文本分类任务的西班牙语语料库。它是从维基百科和维基数据来源自动创建的,包含了8401篇来自Viquipedia的文章,分为12个不同的类别。
该数据集是BSC TeMU作为PlanTL项目的一部分开发的,旨在评估生成有用的合成语料库的LT能力。
文本分类,语言模型
西班牙语(ES- Spanish)
两个json文件,每个分隔。
我们使用了一个简单的模型,包含文章文本和相关标签,没有其他元数据。
Example:{'sentence': 'La economía de Reunión se ha basado tradicionalmente en la agricultura. La caña de azúcar ha sido el cultivo principal durante más de un siglo, y en algunos años representa el 85% de las exportaciones. El gobierno ha estado impulsando el desarrollo de una industria turística para aliviar el alto desempleo, que representa más del 40% de la fuerza laboral.(...) El PIB total de la isla fue de 18.800 millones de dólares EE.UU. en 2007., 'label': 'Economía'}Labels
'Religión', 'Entretenimiento', 'Música', 'Ciencia_y_Tecnología', 'Política', 'Economía', 'Matemáticas', 'Humanidades', 'Deporte', 'Derecho', 'Historia', 'Filosofía'
"Categoría"页面代表主题。对于每个主题,我们提取与该层级相关的页面,并使用摘要("summary")作为代表性文本。
源数据是不同维基百科的主题类别
谁是源语言制片人?自动注释
谁是注释人员?[N/A]
不包括个人或敏感信息。
我们希望这个语料库能为西班牙语的语言模型的发展做出贡献。
我们意识到这些数据可能包含偏见。我们没有采取任何措施来减小它们的影响。
[N/A]
Text Mining Unit (TeMU) at the Barcelona Supercomputing Center ( bsc-temu@bsc.es )。
如需更多信息,请发送电子邮件至 ( plantl-gob-es@bsc.es )。
该工作由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 在 Plan-TL 框架内的资助。
该作品根据 CC Attribution 4.0 International 许可证进行许可。
版权所有西班牙国家数字化和人工智能秘书处(SEDIA)(2022)
[N/A]