数据集:
laroseda
任务:
文本分类语言:
ro计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
found源数据集:
original许可:
cc-by-4.0LaRoSeDa是一个大规模的罗马尼亚情感数据集。LaRoSeDa包含15,000条罗马尼亚语的评论,其中7,500条为正面评论,7,500条为负面评论。样本具有四个星级评分:1或2代表被认为是负面极性的评论,4或5代表正面评论。这个语料库中的15,000个样本带有星级评分并被分为训练集和测试集,每个子集分别有12,000个样本和3,000个样本。
LiRo Benchmark and Leaderboard
该文本数据集使用罗马尼亚语(ro)。
下面是LaRoSeDa中一个样本的示例:
{ "index": "9675", "title": "Nu recomand", "content": "probleme cu localizarea, mari...", "starRating": 1, }
其中,“9675”是样本索引,后面是评论的标题、内容,然后是用户给出的星级评分。
训练集/测试集的拆分包含12,000个/3,000个样本,并附有每个样本在数据集中的星级评分。
为了消除与主题不相关的特征,对样本进行了预处理以消除命名实体。例如,指向政治家或足球运动员姓名的命名实体可能提供有关主题的线索。有关更多详细信息,请阅读 paper 。
在数据收集中,针对罗马尼亚最大的电子商务平台之一进行了目标定向。为了自动给收集到的文本样本分配标签,同时也收集了每个评论的关联星级评分。
源语言生成者是谁?原始文本来自罗马尼亚最大的电子商务平台之一。
如上所述,LaRoSeDa由来自罗马尼亚最大电子商务网站的产品评论组成。生成的样本会自动打上用户分配的星级评分标签。
注释者是谁?N/A
LaRoSeDa收集的文本数据包括在互联网上免费可获取的产品评论。据作者所知,没有个人或敏感信息需要在收集的文本输入中考虑。
此数据集是鼓励在非英语语言中进行文本分类研究的努力的一部分。这样的工作增加了自然语言技术在更多地区和文化中的可访问性。在过去的三年里,对从计算语言学的角度研究罗马尼亚语的兴趣越来越大。然而,在这种特定语言中,我们远远没有足够的数据集和资源。
我们注意到大多数负面评论(5,561条)的评级为一星。同样,大多数正面评论(6,238条)的评级为五星。因此,该语料库非常极化。
星级评分可能并不总是反映文本的极性。因此,我们承认自动标注过程并不是最佳的,即一些标签可能是噪声。
由Anca Tache,Mihaela Gaman和Radu Tudor Ionescu发布和管理。
CC BY-SA 4.0许可证
@article{ tache2101clustering, title={Clustering Word Embeddings with Self-Organizing Maps. Application on LaRoSeDa -- A Large Romanian Sentiment Data Set}, author={Anca Maria Tache and Mihaela Gaman and Radu Tudor Ionescu}, journal={ArXiv}, year = {2021} }
感谢 @MihaelaGaman 添加了这个数据集。