数据集:

wongnai_reviews

语言:

th

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

lgpl-3.0
英文

Wongnai_Reviews 数据集卡片

数据集概要

Wongnai Reviews 数据集包含餐厅的评论和评分,几乎全部为泰语。

评论分为5个等级,从1星到5星。

此数据集在 Kaggle 挑战 https://www.kaggle.com/c/wongnai-challenge-review-rating-prediction/overview 中被使用。

语言

泰语

数据集结构

数据字段

  • review_body - 评论文本
  • star_rating - 整数星级评分(1-5),或-1(测试集)

数据拆分

拆分为训练集(40,000 条评论)和测试集(6,204 条评论)。

数据来源

数据收集和规范化

数据由 Wongnai 从他们网站上的商家评论中收集,并在 GitHub 和 Kaggle 上共享。

注释

评论是用户自己的星级评分,因此不需要额外的注释。

附加信息

数据集贡献者

原始 GitHub 仓库的贡献者:

  • Ekkalak Thongthanomkul
  • Tanapol Nearunchorn
  • Yuwat Chuesathuchon

许可信息

LGPL-3.0

引用信息

https://github.com/wongnai/wongnai-corpus

贡献

感谢 @mapmeld @cstorm125 提供此数据集。