数据集:

laroseda

语言:

ro

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

cc-by-4.0
英文

LaRoSeDa的数据集卡片

数据集摘要

LaRoSeDa是一个大规模的罗马尼亚情感数据集。LaRoSeDa包含15,000条罗马尼亚语的评论,其中7,500条为正面评论,7,500条为负面评论。样本具有四个星级评分:1或2代表被认为是负面极性的评论,4或5代表正面评论。这个语料库中的15,000个样本带有星级评分并被分为训练集和测试集,每个子集分别有12,000个样本和3,000个样本。

支持的任务和排行榜

LiRo Benchmark and Leaderboard

语言

该文本数据集使用罗马尼亚语(ro)。

数据集结构

数据实例

下面是LaRoSeDa中一个样本的示例:

{
    "index": "9675",
    "title": "Nu recomand",
    "content": "probleme cu localizarea, mari...",
    "starRating": 1,
}

其中,“9675”是样本索引,后面是评论的标题、内容,然后是用户给出的星级评分。

数据字段

  • index: 字符串,样本的唯一标识符。
  • title: 字符串,评论的标题。
  • content: 字符串,评论的内容。
  • starRating: 整数,取值集合为{1, 2, 4, 5}。

数据拆分

训练集/测试集的拆分包含12,000个/3,000个样本,并附有每个样本在数据集中的星级评分。

数据集创建

策划理由

为了消除与主题不相关的特征,对样本进行了预处理以消除命名实体。例如,指向政治家或足球运动员姓名的命名实体可能提供有关主题的线索。有关更多详细信息,请阅读 paper

数据来源

数据收集与归一化

在数据收集中,针对罗马尼亚最大的电子商务平台之一进行了目标定向。为了自动给收集到的文本样本分配标签,同时也收集了每个评论的关联星级评分。

源语言生成者是谁?

原始文本来自罗马尼亚最大的电子商务平台之一。

注释

注释过程

如上所述,LaRoSeDa由来自罗马尼亚最大电子商务网站的产品评论组成。生成的样本会自动打上用户分配的星级评分标签。

注释者是谁?

N/A

个人和敏感信息

LaRoSeDa收集的文本数据包括在互联网上免费可获取的产品评论。据作者所知,没有个人或敏感信息需要在收集的文本输入中考虑。

数据使用注意事项

数据集的社会影响

此数据集是鼓励在非英语语言中进行文本分类研究的努力的一部分。这样的工作增加了自然语言技术在更多地区和文化中的可访问性。在过去的三年里,对从计算语言学的角度研究罗马尼亚语的兴趣越来越大。然而,在这种特定语言中,我们远远没有足够的数据集和资源。

偏见讨论

我们注意到大多数负面评论(5,561条)的评级为一星。同样,大多数正面评论(6,238条)的评级为五星。因此,该语料库非常极化。

其他已知限制

星级评分可能并不总是反映文本的极性。因此,我们承认自动标注过程并不是最佳的,即一些标签可能是噪声。

其他信息

数据集策划者

由Anca Tache,Mihaela Gaman和Radu Tudor Ionescu发布和管理。

许可信息

CC BY-SA 4.0许可证

引用信息

@article{
    tache2101clustering,
    title={Clustering Word Embeddings with Self-Organizing Maps. Application on LaRoSeDa -- A Large Romanian Sentiment Data Set},
    author={Anca Maria Tache and Mihaela Gaman and Radu Tudor Ionescu},
    journal={ArXiv},
    year = {2021}
}

贡献

感谢 @MihaelaGaman 添加了这个数据集。