数据集:

moroco

语言:

ro

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1901.06543

许可:

cc-by-4.0
英文

MOROCO 数据集卡片

数据集概述

介绍 MOROCO - 摩尔多瓦和罗马尼亚方言语料库。MOROCO数据集包含从新闻领域收集的摩尔多瓦语和罗马尼亚语文本样本。这些样本属于以下六个主题之一:(0)文化,(1)金融,(2)政治,(3)科学,(4)体育,(5)技术。该语料库总共包含33,564个样本,每个样本都标有上述六个类别之一。我们还提供了一个包含21,719个样本的训练/验证/测试分割子集。

支持的任务和排行榜

LiRo Benchmark and Leaderboard

语言

该文本数据集为罗马尼亚语(ro)

数据集结构

数据实例

下面是来自MOROCO的一个样本示例:

{'id': , '48482',
 'category': 2, 
 'sample': '“$NE$ cum am spus, nu este un sfârşit de drum . Vom continua lupta cu toate instrumentele şi cu toate mijloacele legale, parlamentare şi civice pe care le avem la dispoziţie . Evident că vom contesta la $NE$ această lege, au anunţat şi colegii de la $NE$ o astfel de contestaţie . Practic trebuie utilizat orice instrument pe care îl identificăm pentru a bloca intrarea în vigoare a acestei legi . Bineînţeles, şi preşedintele are punctul său de vedere . ( . . . ) $NE$ legi sunt împănate de motive de neconstituţionalitate . Colegii mei de la departamentul juridic lucrează în prezent pentru a definitiva textul contestaţiei”, a declarat $NE$ $NE$ citat de news . ro . Senatul a adoptat, marţi, în calitate de for decizional, $NE$ privind statutul judecătorilor şi procurorilor, cu 80 de voturi ”pentru” şi niciun vot ”împotrivă”, în condiţiile în care niciun partid din opoziţie nu a fost prezent în sală .',
}

其中48482是样本ID,后面是类别的实际标签,然后是表示要按主题分类的实际内容的文本。

注意:类别标签的整数值范围为0到5。

数据字段

  • id :字符串,样本的唯一标识符
  • category_label :范围为[0,5]的整数;分配给样本的类别。
  • sample :字符串,用于分类/用于分类的新闻报道。

数据拆分

训练/验证/测试拆分包含21,719/5,921/5,924个样本,每个样本都有分配给其的类别。

数据集创建

策划理由

为了消除命名实体,对样本进行了预处理。这是为了防止分类器基于与主题无关的特征做出决策。例如,指称政治家或足球运动员名称的命名实体可以提供有关主题的线索。有关更多详细信息,请阅读 paper

数据源

数据收集和标准化

数据收集通过定向五个最受欢迎的罗马尼亚和摩尔多瓦新闻网站进行。由于数据集是通过网络爬虫技术获取的,因此需要删除所有HTML标签,并将连续的空格替换为一个空格。

作为预处理的一部分,我们删除了国家名称、城市、公众人物等命名实体。命名实体已被替换为$NE$。移除命名实体的必要性也来自于该数据集的范围:按主题分类。因此,作者决定删除命名实体,以防止分类器基于不真正指示主题的特征做出决策。

谁是源语言制作者?

原始文本来自于罗马尼亚和摩尔多瓦的新闻网站。

注释

注释过程

如前所述,MOROCO由罗马尼亚和摩尔多瓦排名前五的最受欢迎的新闻网站的文本样本组成。由于新闻网站中有主题标签,因此可以使用相应的类别自动标记文本样本。

谁是注释者?

N/A

个人和敏感信息

为MOROCO收集的文本数据包括在互联网上免费提供的、与公众利益相关的新闻报道。据作者所知,没有个人或敏感信息需要考虑在所收集的文本输入中。

使用数据时的注意事项

数据的社会影响

该数据集是鼓励非英语文本分类研究的一部分。这项工作增加了自然语言技术对更多地区和文化的可访问性。在过去的三年中,我们对从计算语言学的角度研究罗马尼亚语越来越感兴趣。然而,我们远远不够在这种特定语言中拥有足够的数据集和资源。

偏见讨论

MOROCO中包含的数据跨越了几年的明确时间范围。在新闻媒体中曾经感兴趣的一部分主题可能不会在现在或几年后的新闻网站上出现。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

由Radu Tudor Ionescu和Andrei Butnaru发布和管理。

授权信息

CC BY-SA 4.0许可证

引用信息

@inproceedings{ Butnaru-ACL-2019,
    author = {Andrei M. Butnaru and Radu Tudor Ionescu},
    title = "{MOROCO: The Moldavian and Romanian Dialectal Corpus}",
    booktitle = {Proceedings of ACL},
    year = {2019},
    pages={688--698},
}

贡献

感谢 @MihaelaGaman 添加了这个数据集。