数据集:

app_reviews

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original
英文

[数据集名称] 数据集卡片

数据集概述

这是一个包含23个不同应用类别的安卓应用的大型数据集,提供了用户在应用上报的反馈类型的概述,并记录了相关代码指标的演变。该数据集包含来自F-Droid存储库的约395个应用程序,包括约600个版本,280,000个用户评论(使用特定文本挖掘方法提取)。

支持的任务和排行榜

我们提供的数据集包括来自F-Droid存储库的395个不同的应用程序,包括这些应用程序的629个版本的代码质量指标。它还包含与每个版本相关的应用程序评论,这些评论已经通过软件维护和演进的视角对用户反馈进行分类。

语言

该数据集是一个单语数据集,使用英语作为信息语言。

数据集结构

数据实例

该数据集由一条英文消息组成。

{'package_name': 'com.mantz_it.rfanalyzer', 'review': "Great app! The new version now works on my Bravia Android TV which is great as it's right by my rooftop aerial cable. The scan feature would be useful...any ETA on when this will be available? Also the option to import a list of bookmarks e.g. from a simple properties file would be useful.", 'date': 'October 12 2016', 'star': 4}

数据字段

  • package_name:软件应用程序包名称
  • review:用户的消息
  • date:用户发布评论的日期
  • star:用户对应用程序的评分

数据拆分

有训练数据,总数为:288065

数据集创建

策划理由

[需要更多信息]

数据来源

初始数据收集和规范化

[需要更多信息]

谁是源语言制造者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

借助这个数据集,人们可以更好地了解软件应用程序以及用户对它们的观点和意见。这有助于更好地了解用户更喜欢哪种类型的软件应用程序,以及这些应用程序如何帮助用户解决问题和困难。

偏见讨论

这些评论只针对开源软件应用程序,未考虑其他领域。

其他已知限制

[需要更多信息]

附加信息

数据集策划者

Giovanni Grano-苏黎世大学;Sebastiano Panichella-苏黎世大学; Andrea di Sorbo-山尼奥大学

许可信息

[需要更多信息]

引文信息

@InProceedings{Zurich Open Repository andArchive:dataset,title = {Software Applications User Reviews},authors={Grano, Giovanni; Di Sorbo, Andrea; Mercaldo, Francesco; Visaggio, Corrado A; Canfora, Gerardo; Panichella, Sebastiano},year={2017}}

贡献者

感谢 @darshan-gandhi 添加此数据集。