数据集:

lpsc-fiuba/melisa

英文

MeLiSA(Mercado Libre情感分析)数据集卡

**注意:此卡片正在施工中**

**注意2:该数据集的发布版本是演示版本**

[需要更多信息]

数据集摘要

我们提供了一个用于西班牙语和葡萄牙语文本分类的Mercado Libre产品评论数据集。该数据集包含从2020年8月至2021年1月之间收集的这两种语言的评论。数据集中的每个记录都包含评论内容和标题、星级评分、发布的国家和产品类别(艺术、技术等)。每种语言的数据集在星级上基本平衡,因此每个星级评分大约占每种语言评论的20%。

Spanish Portugese
Train Validation Test Train Validation Test
1 88.425 4.052 5.000 50.801 4.052 5.000
2 88.397 4.052 5.000 50.782 4.052 5.000
3 88.435 4.052 5.000 50.797 4.052 5.000
4 88.449 4.052 5.000 50.794 4.052 5.000
5 88.402 4.052 5.000 50.781 4.052 5.000

表格显示了每个拆分中每个星级评分的样本数。西班牙语的训练样本共有442,108个,葡萄牙语的训练样本共有253,955个。我们限制每个产品的评论数量为30条,并根据评论的语义内容进行排序选择。在此排序中,首先考虑评论内容的长度和评价(喜欢和不喜欢之间的差异)。有关此过程的更多详细信息,请参阅(引用)。

西班牙语评论来自8个不同的拉丁美洲国家(阿根廷、哥伦比亚、秘鲁、乌拉圭、智利、委内瑞拉和墨西哥),葡萄牙语评论来自巴西。我们使用基于Joulin等人的工作(2016a和2016b)的语言检测算法来匹配语言与其相应的国家,并删除不是用预期语言编写的评论。

[需要更多信息]

语言

数据集包含拉丁美洲西班牙语和葡萄牙语的评论。

数据集结构

数据示例

每个数据实例对应一条评论。每个拆分存储在单独的 .csv 文件中,因此每个文件中的每一行都是一条评论。例如,这里显示了西班牙语训练拆分的摘录:

country,category,review_content,review_title,review_rate
...
MLA,Tecnología y electrónica / Tecnologia e electronica,Todo bien me fue muy util.,Muy bueno,2
MLU,"Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal",No fue lo que esperaba. El producto no me sirvió.,No fue el producto que esperé ,2
MLM,Tecnología y electrónica / Tecnologia e electronica,No fue del todo lo que se esperaba.,No me fue muy funcional ahí que hacer ajustes,2
...

数据字段

  • country:国家的字符串标识符。可以是以下之一:MLA(阿根廷)、MCO(哥伦比亚)、MPE(秘鲁)、MLU(乌拉圭)、MLC(智利)、MLV(委内瑞拉)、MLM(墨西哥)或MLB(巴西)。
  • category:产品类别的字符串表示。可以是以下之一:
    • 家 (Hogar / Casa)
    • 科技与电子产品 (Tecnologı́a y electrónica / Tecnologia e cinelectronica)
    • 健康、服饰与个人护理 (Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal)
    • 艺术与娱乐 (Arte y entretenimiento / Arte e Entretenimiento)
    • 食品与饮料 (Alimentos y Bebidas / Alimentos e Bebidas)
  • review_content:评论的文本内容。
  • review_title:评论的标题文本。
  • review_rate:1-5之间的整数,表示星级评分。

数据拆分

每种语言配置都有自己的训练、验证和测试拆分。 all_languages拆分只是各种语言对应拆分的串联。也就是说,all_languages的训练拆分是每种语言的训练拆分的串联,验证和测试也是如此。

数据集创建

策划理由

该数据集的动机是希望推动拉丁美洲西班牙语和葡萄牙语的情感分析和文本分类。

源数据

初始数据收集和归一化

作者从阿根廷、哥伦比亚、秘鲁、乌拉圭、智利、委内瑞拉和墨西哥的市场收集了西班牙语数据,巴西收集了葡萄牙语数据。他们通过应用评论的长度和评价(喜欢和不喜欢之间的差异)的排名过滤器,优先选择包含相关语义内容的评论。然后,他们通过应用半自动语言检测算法确保了正确的语言,只保留了目标语言的评论。评论内容或标题未进行任何规范化处理。

原始产品类别被分组为较高级别类别,形成了五种不同类型的产品:"家"(Hogar / Casa)、"技术和电子产品"(Tecnologı́a y electrónica/ Tecnologia e cinelectronica)、"健康、服饰和个人护理"(Salud, ropa y cuidado personal / Saúde, roupas e cuidado pessoal)和"艺术与娱乐"(Arte y entretenimiento / Arte e Entretenimiento)。

谁是源语言制作者?

原始文本来自Mercado Libre的客户,在多种产品类别上对市场上的产品进行评论。

注释

注释过程

用户在提交评论时或评论相关联时,会提供包含的每个字段。无需进行人工或机器驱动的注释。

评注者是谁?

N/A

个人和敏感信息

Mercado Libre评论是由用户提交的,他们知道并注意到了它们是公开的。在该数据集中,包含的评论人ID经过了匿名处理,即与原始用户配置文件分离。然而,鉴于自由文本回答的公开和可识别性属性,这些字段很可能易于去匿名化。

数据使用注意事项

数据社会影响

虽然西班牙语和葡萄牙语相对资源丰富,但大部分数据来自欧洲或美国用户。该数据集是鼓励在英语、欧洲西班牙语和葡萄牙语以外的其他语言进行文本分类研究的努力的一部分。这样的工作增加了更多地区和文化访问自然语言技术的可行性。

偏见讨论

这里包含的数据来自未经验证的消费者。其中一部分评论可能是虚假的,或者包含误导性或冒犯性语言。

其他已知限制

该数据集的构建使得星级评分的分布大致平衡。这个特性在分类的目的上有一些优势,但某些类型的语言可能相对于原始评论的分布而言被过度或不足地表示。[需要更多信息]

其他信息

数据集策划者

Lautaro Estienne、Matías Vera和Leonardo Rey Vega发布。由布宜诺斯艾利斯大学工程学院电子系信号处理实验室管理。

许可信息

亚马逊已根据其自己的协议对该数据集进行了许可,可以在数据集网页 https://docs.opendata.aws/amazon-reviews-ml/license.txt 中找到。

引用信息

如果您发现此数据集有用,请引用以下论文:

(引用)[需要更多信息]

贡献

[需要更多信息]