wisesight_sentiment 的数据集卡
数据集摘要
Wisesight情感语料库:含有情感标签(正面、中性、负面、问题)的泰语社交媒体消息
- 根据创作共用CC0 v1.0通用许可证发布到公共领域。
- 标签:{"pos": 0, "neu": 1, "neg": 2, "q": 3}
- 大小:26,737条消息
- 语言:中央泰语
- 风格:非正式和会话式。包含一些新闻标题和广告。
- 时间范围:大约在2016年到2019年初。少量来自其他时期。
- 领域:混合。大部分是消费品和服务(餐厅、化妆品、饮料、汽车、酒店),部分是时事新闻。
- 隐私:
- 仅包含在互联网上公开的消息(网站、博客、社交网站)。
- 对于Facebook,这意味着在公共页面上进行的公共评论(每个人都可以看到)。
- 不包括私人/受保护的消息以及群组、聊天和收件箱中的消息。
- 更改和修改:
- 请记住,此语料库无法统计地代表语言寄存器中的任何内容。
- 大量的消息不是以原始形式出现的。已删除或屏蔽了个人数据。
- 删除了重复、前导和尾随的空格。保留其他标点符号、符号和表情符号。保留(错)拼写。
- 删除长度超过2000个字符的消息。
- 删除了较长的非泰语消息。删除了重复的消息(完全匹配)。
- 还可以探索数据的更多特征
支持的任务和排行榜
情感分析 /
Kaggle Leaderboard
语言
泰语
数据集结构
数据实例
{'category': 'pos', 'texts': 'น่าสนนน'}
{'category': 'neu', 'texts': 'ครับ #phithanbkk'}
{'category': 'neg', 'texts': 'ซื้อแต่ผ้าอนามัยแบบเย็นมาค่ะ แบบว่าอีห่ากูนอนไม่ได้'}
{'category': 'q', 'texts': 'มีแอลกอฮอลมั้ยคะ'}
数据字段
- texts:文本
- category:文本的情感,分为正(pos,即 0),中性(neu,即 1),负(neg,即 2)和问题(q,即 3)
数据拆分
train
|
valid
|
test
|
# samples
|
21628
|
2404
|
2671
|
# neu
|
11795
|
1291
|
1453
|
# neg
|
5491
|
637
|
683
|
# pos
|
3866
|
434
|
478
|
# q
|
476
|
42
|
57
|
avg words
|
27.21
|
27.18
|
27.12
|
avg chars
|
89.82
|
89.50
|
90.36
|
数据集创建
策划原理
最初,该数据集是为Chulalongkorn大学的
In-class Kaggle Competition
设计的,由
Ekapol Chuangsuwanich
(Chulalongkorn大学工程学院)提供。此后,它已成为泰语情感分析的基准之一。
源数据
初始数据收集和标准化
- 风格:非正式和会话式。包含一些新闻标题和广告。
- 时间范围:大约在2016年到2019年初。少量来自其他时期。
- 领域:混合。大部分是消费品和服务(餐厅、化妆品、饮料、汽车、酒店),部分是时事新闻。
- 隐私:
- 仅包含在互联网上公开的消息(网站、博客、社交网站)。
- 对于Facebook,这意味着在公共页面上进行的公共评论(每个人都可以看到)。
- 不包括私人/受保护的消息以及群组、聊天和收件箱中的消息。
- 已删除用户名和非公共人物名称
- 电话号码已屏蔽(例如:088-888-8888,09-9999-9999,0-2222-2222)
- 如果您看到任何仍然有个人数据存在于数据集中,请告诉我们,以便我们删除它们。
- 更改和修改:
- 请记住,此语料库无法统计地代表语言寄存器中的任何内容。
- 大量的消息不是以原始形式出现的。已删除或屏蔽了个人数据。
- 删除了重复、前导和尾随的空格。其他标点符号、符号和表情符号保持完整。
- 保留了(错)拼写。
- 删除了长度超过2000个字符的消息。
- 删除了较长的非泰语消息。删除了重复的消息(完全匹配)。
源语言制作人是谁?
泰国的社交媒体用户
注释
注释过程
- 情感值由人工注释者分配。
- 人工注释者尽力为一条消息中的情感赋予一个标签。
- 一致性、愉快和满意被认为是积极的。不一致、悲伤和失望被认为是消极的。
- 对某个主题或产品的兴趣被视为积极。在这种意义上,关于特定产品的问题可能具有积极的情感值,如果它显示对产品的兴趣。
- 表示其他产品或服务更好被视为消极的。
- 一般信息或新闻标题往往被视为中性。
注释者是谁?
外包的注释者,由
Wisesight (Thailand) Co., Ltd.
雇佣
个人和敏感信息
- 作者试图在数据集中排除任何可识别个人信息。
- 已删除用户名和非公共人物名称
- 电话号码已屏蔽(例如:088-888-8888,09-9999-9999,0-2222-2222)
- 如果您看到任何仍然有个人数据存在于数据集中,请告诉我们,以便我们删除它们。
使用数据的注意事项
数据的社会影响
- wisesight_sentiment 是最早一批也是为数不多的泰语社交媒体情感分析开放数据集之一
- 存在个人信息逃脱匿名化过程的风险
偏见讨论
- 一条消息可能是模棱两可的。在可能的情况下,判断将仅基于文本本身。
- 在某些情况下,例如在缺少上下文的情况下,注释者可能不得不依靠自己的世界知识来猜测。
- 在某些情况下,人工注释者可以访问消息的上下文,比如一个图像。这些额外的信息未包含在此语料库中。
其他已知限制
- 标签不平衡;超过一半的文本是中性的(neu),而非常少的是问题(q)。
- 社交媒体文本中的拼写错误使得泰语分词过程变得困难,从而影响模型性能
附加信息
数据集策划者
感谢
PyThaiNLP
社区、
Kitsuchart Pasupa
(泰国国王蒙古特理工学院信息技术学院)以及
Ekapol Chuangsuwanich
(泰国朱拉隆功大学工程学院)的建议。原始的Kaggle竞赛使用这个语料库的第一个版本,可以在
https://www.kaggle.com/c/wisesight-sentiment/
找到
版权信息
- 如果适用,每条消息内容的版权属于原始发布者。
- 标注数据(标签)已发布到公共领域。
-
Wisesight (Thailand) Co., Ltd.
有助于注释,但不一定同意人工注释者的标签。此注释仅供研究目的,并不反映Wisesight为客户所做的专业工作。
- 人工注释者不一定同意或不同意消息。同样,他/她对消息的标注也不一定反映他/她对消息的个人观点。
引用信息
如果您使用了该数据集,请引用以下内容:
Arthit Suriyawongkul,Ekapol Chuangsuwanich,Pattarawat Chormai和Charin Polpanumas。2019年。PyThaiNLP/wisesight-sentiment:首次发布。九月。
BibTeX:
@software{bact_2019_3457447,
author = {Suriyawongkul, Arthit and
Chuangsuwanich, Ekapol and
Chormai, Pattarawat and
Polpanumas, Charin},
title = {PyThaiNLP/wisesight-sentiment: First release},
month = sep,
year = 2019,
publisher = {Zenodo},
version = {v1.0},
doi = {10.5281/zenodo.3457447},
url = {https://doi.org/10.5281/zenodo.3457447}
}
贡献
感谢
@cstorm125
为添加该数据集。