数据集:

wisesight_sentiment

语言:

th

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

cc0-1.0
英文

wisesight_sentiment 的数据集卡

数据集摘要

Wisesight情感语料库:含有情感标签(正面、中性、负面、问题)的泰语社交媒体消息

  • 根据创作共用CC0 v1.0通用许可证发布到公共领域。
  • 标签:{"pos": 0, "neu": 1, "neg": 2, "q": 3}
  • 大小:26,737条消息
  • 语言:中央泰语
  • 风格:非正式和会话式。包含一些新闻标题和广告。
  • 时间范围:大约在2016年到2019年初。少量来自其他时期。
  • 领域:混合。大部分是消费品和服务(餐厅、化妆品、饮料、汽车、酒店),部分是时事新闻。
  • 隐私:
    • 仅包含在互联网上公开的消息(网站、博客、社交网站)。
    • 对于Facebook,这意味着在公共页面上进行的公共评论(每个人都可以看到)。
    • 不包括私人/受保护的消息以及群组、聊天和收件箱中的消息。
  • 更改和修改:
    • 请记住,此语料库无法统计地代表语言寄存器中的任何内容。
    • 大量的消息不是以原始形式出现的。已删除或屏蔽了个人数据。
    • 删除了重复、前导和尾随的空格。保留其他标点符号、符号和表情符号。保留(错)拼写。
    • 删除长度超过2000个字符的消息。
    • 删除了较长的非泰语消息。删除了重复的消息(完全匹配)。
  • 还可以探索数据的更多特征

支持的任务和排行榜

情感分析 / Kaggle Leaderboard

语言

泰语

数据集结构

数据实例

{'category': 'pos', 'texts': 'น่าสนนน'}
{'category': 'neu', 'texts': 'ครับ #phithanbkk'}
{'category': 'neg', 'texts': 'ซื้อแต่ผ้าอนามัยแบบเย็นมาค่ะ แบบว่าอีห่ากูนอนไม่ได้'}
{'category': 'q', 'texts': 'มีแอลกอฮอลมั้ยคะ'}

数据字段

  • texts:文本
  • category:文本的情感,分为正(pos,即 0),中性(neu,即 1),负(neg,即 2)和问题(q,即 3)

数据拆分

train valid test
# samples 21628 2404 2671
# neu 11795 1291 1453
# neg 5491 637 683
# pos 3866 434 478
# q 476 42 57
avg words 27.21 27.18 27.12
avg chars 89.82 89.50 90.36

数据集创建

策划原理

最初,该数据集是为Chulalongkorn大学的 In-class Kaggle Competition 设计的,由 Ekapol Chuangsuwanich (Chulalongkorn大学工程学院)提供。此后,它已成为泰语情感分析的基准之一。

源数据

初始数据收集和标准化
  • 风格:非正式和会话式。包含一些新闻标题和广告。
  • 时间范围:大约在2016年到2019年初。少量来自其他时期。
  • 领域:混合。大部分是消费品和服务(餐厅、化妆品、饮料、汽车、酒店),部分是时事新闻。
  • 隐私:
    • 仅包含在互联网上公开的消息(网站、博客、社交网站)。
    • 对于Facebook,这意味着在公共页面上进行的公共评论(每个人都可以看到)。
    • 不包括私人/受保护的消息以及群组、聊天和收件箱中的消息。
    • 已删除用户名和非公共人物名称
    • 电话号码已屏蔽(例如:088-888-8888,09-9999-9999,0-2222-2222)
    • 如果您看到任何仍然有个人数据存在于数据集中,请告诉我们,以便我们删除它们。
  • 更改和修改:
    • 请记住,此语料库无法统计地代表语言寄存器中的任何内容。
    • 大量的消息不是以原始形式出现的。已删除或屏蔽了个人数据。
    • 删除了重复、前导和尾随的空格。其他标点符号、符号和表情符号保持完整。
    • 保留了(错)拼写。
    • 删除了长度超过2000个字符的消息。
    • 删除了较长的非泰语消息。删除了重复的消息(完全匹配)。
源语言制作人是谁?

泰国的社交媒体用户

注释

注释过程
  • 情感值由人工注释者分配。
  • 人工注释者尽力为一条消息中的情感赋予一个标签。
  • 一致性、愉快和满意被认为是积极的。不一致、悲伤和失望被认为是消极的。
  • 对某个主题或产品的兴趣被视为积极。在这种意义上,关于特定产品的问题可能具有积极的情感值,如果它显示对产品的兴趣。
  • 表示其他产品或服务更好被视为消极的。
  • 一般信息或新闻标题往往被视为中性。
注释者是谁?

外包的注释者,由 Wisesight (Thailand) Co., Ltd. 雇佣

个人和敏感信息

  • 作者试图在数据集中排除任何可识别个人信息。
  • 已删除用户名和非公共人物名称
  • 电话号码已屏蔽(例如:088-888-8888,09-9999-9999,0-2222-2222)
  • 如果您看到任何仍然有个人数据存在于数据集中,请告诉我们,以便我们删除它们。

使用数据的注意事项

数据的社会影响

  • wisesight_sentiment 是最早一批也是为数不多的泰语社交媒体情感分析开放数据集之一
  • 存在个人信息逃脱匿名化过程的风险

偏见讨论

  • 一条消息可能是模棱两可的。在可能的情况下,判断将仅基于文本本身。
    • 在某些情况下,例如在缺少上下文的情况下,注释者可能不得不依靠自己的世界知识来猜测。
    • 在某些情况下,人工注释者可以访问消息的上下文,比如一个图像。这些额外的信息未包含在此语料库中。

其他已知限制

  • 标签不平衡;超过一半的文本是中性的(neu),而非常少的是问题(q)。
  • 社交媒体文本中的拼写错误使得泰语分词过程变得困难,从而影响模型性能

附加信息

数据集策划者

感谢 PyThaiNLP 社区、 Kitsuchart Pasupa (泰国国王蒙古特理工学院信息技术学院)以及 Ekapol Chuangsuwanich (泰国朱拉隆功大学工程学院)的建议。原始的Kaggle竞赛使用这个语料库的第一个版本,可以在 https://www.kaggle.com/c/wisesight-sentiment/ 找到

版权信息

  • 如果适用,每条消息内容的版权属于原始发布者。
  • 标注数据(标签)已发布到公共领域。
  • Wisesight (Thailand) Co., Ltd. 有助于注释,但不一定同意人工注释者的标签。此注释仅供研究目的,并不反映Wisesight为客户所做的专业工作。
  • 人工注释者不一定同意或不同意消息。同样,他/她对消息的标注也不一定反映他/她对消息的个人观点。

引用信息

如果您使用了该数据集,请引用以下内容:

Arthit Suriyawongkul,Ekapol Chuangsuwanich,Pattarawat Chormai和Charin Polpanumas。2019年。PyThaiNLP/wisesight-sentiment:首次发布。九月。

BibTeX:

@software{bact_2019_3457447,
  author       = {Suriyawongkul, Arthit and
                  Chuangsuwanich, Ekapol and
                  Chormai, Pattarawat and
                  Polpanumas, Charin},
  title        = {PyThaiNLP/wisesight-sentiment: First release},
  month        = sep,
  year         = 2019,
  publisher    = {Zenodo},
  version      = {v1.0},
  doi          = {10.5281/zenodo.3457447},
  url          = {https://doi.org/10.5281/zenodo.3457447}
}

贡献

感谢 @cstorm125 为添加该数据集。