数据集:

laroseda

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2101.04197 arxiv:1901.06543

许可:

cc-by-4.0

数据集介绍文件清单

英文

LaRoSeDa的数据集卡片

数据集摘要

LaRoSeDa是一个大规模的罗马尼亚情感数据集。LaRoSeDa包含15,000条罗马尼亚语的评论，其中7,500条为正面评论，7,500条为负面评论。样本具有四个星级评分：1或2代表被认为是负面极性的评论，4或5代表正面评论。这个语料库中的15,000个样本带有星级评分并被分为训练集和测试集，每个子集分别有12,000个样本和3,000个样本。

支持的任务和排行榜

LiRo Benchmark and Leaderboard

语言

该文本数据集使用罗马尼亚语（ro）。

数据集结构

数据实例

下面是LaRoSeDa中一个样本的示例：

{
    "index": "9675",
    "title": "Nu recomand",
    "content": "probleme cu localizarea, mari...",
    "starRating": 1,
}

其中，“9675”是样本索引，后面是评论的标题、内容，然后是用户给出的星级评分。

数据字段

index: 字符串，样本的唯一标识符。
title: 字符串，评论的标题。
content: 字符串，评论的内容。
starRating: 整数，取值集合为{1, 2, 4, 5}。

数据拆分

训练集/测试集的拆分包含12,000个/3,000个样本，并附有每个样本在数据集中的星级评分。

数据集创建

策划理由

为了消除与主题不相关的特征，对样本进行了预处理以消除命名实体。例如，指向政治家或足球运动员姓名的命名实体可能提供有关主题的线索。有关更多详细信息，请阅读 paper 。

数据来源

数据收集与归一化

在数据收集中，针对罗马尼亚最大的电子商务平台之一进行了目标定向。为了自动给收集到的文本样本分配标签，同时也收集了每个评论的关联星级评分。

源语言生成者是谁？

原始文本来自罗马尼亚最大的电子商务平台之一。

注释

注释过程

如上所述，LaRoSeDa由来自罗马尼亚最大电子商务网站的产品评论组成。生成的样本会自动打上用户分配的星级评分标签。

注释者是谁？

N/A

个人和敏感信息

LaRoSeDa收集的文本数据包括在互联网上免费可获取的产品评论。据作者所知，没有个人或敏感信息需要在收集的文本输入中考虑。

数据使用注意事项

数据集的社会影响

此数据集是鼓励在非英语语言中进行文本分类研究的努力的一部分。这样的工作增加了自然语言技术在更多地区和文化中的可访问性。在过去的三年里，对从计算语言学的角度研究罗马尼亚语的兴趣越来越大。然而，在这种特定语言中，我们远远没有足够的数据集和资源。

偏见讨论

我们注意到大多数负面评论（5,561条）的评级为一星。同样，大多数正面评论（6,238条）的评级为五星。因此，该语料库非常极化。

其他已知限制

星级评分可能并不总是反映文本的极性。因此，我们承认自动标注过程并不是最佳的，即一些标签可能是噪声。

其他信息

数据集策划者

由Anca Tache，Mihaela Gaman和Radu Tudor Ionescu发布和管理。

许可信息

CC BY-SA 4.0许可证

引用信息

@article{
    tache2101clustering,
    title={Clustering Word Embeddings with Self-Organizing Maps. Application on LaRoSeDa -- A Large Romanian Sentiment Data Set},
    author={Anca Maria Tache and Mihaela Gaman and Radu Tudor Ionescu},
    journal={ArXiv},
    year = {2021}
}

贡献

感谢 @MihaelaGaman 添加了这个数据集。

作者:

佚名

数据集大小:

14.08 KB