数据集:

wisesight1000

语言:

th

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

expert-generated

许可:

cc0-1.0
英文

wisesight1000数据卡

数据集摘要

wisesight1000包含泰国社交媒体文本,是从完整的wisesight-sentiment中随机选取的,由人工标注员进行了分词。标签包括负面(neg)、中立(neu)、积极(pos)、问题(q),每个标签有250个样本。一些看起来像垃圾邮件的文本已被删除。由于这些样本代表了现实世界的内容,我们相信拥有这些标注样本将使社区能够对分词算法进行健壮的评估。

支持的任务和排行榜

词汇分词

语言

泰语

数据集结构

数据实例

{'char': ['E', 'u', 'c', 'e', 'r', 'i', 'n', ' ', 'p', 'r', 'o', ' ', 'a', 'c', 'n', 'e', ' ', 'ค', '่', 'ะ', ' ', 'ใ', 'ช', '้', 'แ', 'ล', '้', 'ว', 'ส', 'ิ', 'ว', 'ข', 'ึ', '้', 'น', 'เ', 'พ', 'ิ', '่', 'ม', 'ท', 'ุ', 'ก', 'ว', 'ั', 'น', ' ', 'ม', 'า', 'ด', 'ู', 'ก', 'ั', 'น', 'น', 'ะ', 'ค', 'ะ', ' ', 'ว', '่', 'า', 'จ', 'ั', 'ด', 'ก', 'า', 'ร', 'ป', 'ั', 'ญ', 'ห', 'า', 'ส', 'ิ', 'ว', 'ใ', 'น', '7', 'ว', 'ั', 'น', 'ไ', 'ด', '้', 'ร', 'ึ', 'ม', 'ั', '่', 'ย', 'ย', 'ย', 'ย', 'ย', 'ย', 'ย', 'ย', ' ', 'ล', '่', 'า', 'ส', 'ุ', 'ด', 'ไ', 'ป', 'ล', '้', 'า', 'ง', 'ห', 'น', '้', '…', '\n'], 'char_type': [0, 8, 8, 8, 8, 8, 8, 5, 8, 8, 8, 5, 8, 8, 8, 8, 5, 1, 9, 10, 5, 11, 1, 9, 11, 1, 9, 1, 1, 10, 1, 1, 10, 9, 1, 11, 1, 10, 9, 1, 1, 10, 1, 1, 4, 1, 5, 1, 10, 1, 10, 1, 4, 1, 1, 10, 1, 10, 5, 1, 9, 10, 1, 4, 1, 1, 10, 1, 1, 4, 1, 3, 10, 1, 10, 1, 11, 1, 2, 1, 4, 1, 11, 1, 9, 1, 10, 1, 4, 9, 1, 1, 1, 1, 1, 1, 1, 1, 5, 1, 9, 10, 1, 10, 1, 11, 1, 1, 9, 10, 1, 3, 1, 9, 4, 4], 'is_beginning': [1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0]}
{'char': ['แ', 'พ', 'ง', 'เ', 'ว', '่', 'อ', 'ร', '์', ' ', 'เ', 'บ', 'ี', 'ย', 'ร', '์', 'ช', '้', 'า', 'ง', 'ต', '้', 'น', 'ท', 'ุ', 'น', 'ข', 'ว', 'ด', 'ล', 'ะ', 'ไ', 'ม', '่', 'ถ', 'ึ', 'ง', ' ', '5', '0', ' ', 'ข', 'า', 'ย', ' ', '1', '2', '0', ' ', '?', '?', '?', '์', '\n'], 'char_type': [11, 1, 1, 11, 1, 9, 1, 1, 7, 5, 11, 1, 10, 1, 1, 7, 1, 9, 10, 1, 1, 9, 1, 1, 10, 1, 1, 1, 1, 1, 10, 11, 1, 9, 1, 10, 1, 5, 2, 2, 5, 1, 10, 1, 5, 2, 2, 2, 5, 4, 4, 4, 7, 4], 'is_beginning': [1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0]}

数据字段

  • char : 字符
  • char_type : 字符类型,来自 deepcut
  • is_beginning : 若为单词的开头则为1,否则为0

数据拆分

未提供明确的拆分。

数据集创建

策划理念

该数据集是从wisesight-sentiment创建的,旨在成为更接近实际文本的分词基准,因为其他泰语分词数据集(例如 BEST )大多是新闻文章的文本,缺乏一些真实世界的特征,如拼写错误。

数据来源

数据收集和规范化

这些数据是从wisesight-sentiment中采样得到的,其数据收集和规范化情况如下:

  • 风格:非正式和口语化。包含一些新闻标题和广告。
  • 时间段:大约在2016年至2019年初。也有少量其他时期的数据。
  • 领域:混合。主要是消费品和服务(餐馆、化妆品、饮料、汽车、酒店),还包括一些时事。
  • 隐私:
    • 仅包括在互联网上公开可见的消息(网站、博客、社交网络站点)。
    • 对于Facebook,这意味着在公共页面上公开可见的评论。
    • 不包括私人/受保护的消息、组内消息和聊天记录。
    • 用户名和非公众人物的姓名已被删除。
    • 电话号码已加密(例如:088-888-8888、09-9999-9999、0-2222-2222)。
    • 如果您发现数据集中仍然存在个人数据,请告知我们,以便我们删除它们。
  • 变动和修改:
    • 请记住,此语料库不会在语言注册中统计上代表任何内容。
    • 大量的消息没有保持其原始形式。已删除或隐藏了个人数据。
    • 删除了重复、前导和尾随的空格。其他标点、符号和表情保持不变。
    • (错)拼写保持不变。
    • 删除了超过2000个字符的消息。
    • 删除了较长的非泰文消息。删除了重复消息(完全匹配)。
数据源语言制作者是谁?

泰国社交媒体用户

注释

注释过程

[需要更多信息]

注释者是谁?

注释由多人完成,包括Nitchakarn Chantarapratin, Pattarawat Chormai Ponrawee Prasertsom Jitkapat Sawatphol Nozomi Yamada Attapol Rutherford

个人和敏感信息

  • 作者们努力排除此数据集中已知的任何个人身份信息。
  • 已删除用户名和非公众人物的姓名。
  • 电话号码已加密(例如:088-888-8888、09-9999-9999、0-2222-2222)。
  • 如果您发现数据集中仍然存在个人数据,请告知我们,以便我们删除它们。

使用数据的注意事项

数据的社会影响

  • 从真实世界的文本中获得的词汇分词数据集

讨论偏见

  • 作者没有给出关于词汇分词的指南

其他已知限制

[需要更多信息]

其他信息

数据集策划者

感谢 PyThaiNLP 社区, Kitsuchart Pasupa (劳动大学信息技术学院)和 Ekapol Chuangsuwanich (朱拉隆功大学工程学院)的建议。使用该语料库的原始Kaggle竞赛可在 https://www.kaggle.com/c/wisesight-sentiment/ 找到

许可信息

CC0

引用信息

数据集:

@software{bact_2019_3457447,
  author       = {Suriyawongkul, Arthit and
                  Chuangsuwanich, Ekapol and
                  Chormai, Pattarawat and
                  Polpanumas, Charin},
  title        = {PyThaiNLP/wisesight-sentiment: First release},
  month        = sep,
  year         = 2019,
  publisher    = {Zenodo},
  version      = {v1.0},
  doi          = {10.5281/zenodo.3457447},
  url          = {https://doi.org/10.5281/zenodo.3457447}
}

字符类型特征:

@inproceedings{haruechaiyasak2009tlex,
  title={TLex: Thai lexeme analyser based on the conditional random fields},
  author={Haruechaiyasak, Choochart and Kongyoung, Sarawoot},
  booktitle={Proceedings of 8th International Symposium on Natural Language Processing},
  year={2009}
}

贡献者

感谢 @cstorm125 添加了这个数据集。