英文

LST20数据集卡

数据集摘要

LST20语料库是由泰国国家电子与计算机技术中心(NECTEC)开发的用于泰语处理的数据集。它提供了五层语言注释:词边界、词性标注、命名实体、从句边界和句子边界。总体规模上,它包含3,164,002个单词、288,020个命名实体、248,181个从句和74,180个句子,同时使用16种不同的词性标签进行注释。所有3,745个文档还使用了15种新闻类型之一进行了注释。就其规模而言,该数据集足够大,可以用于开发NLP的联合神经模型。手动下载:了解更多详细信息,请参阅下载的AIFORTHAI-LST20Corpus.tar.gz文件中的LST20注释指南.pdf和LST20简要规范.pdf。

支持的任务和排行榜

  • POS标注
  • NER标注
  • 从句划分
  • 句子划分
  • 单词标记

语言

泰语

数据集结构

数据实例

{'clause_tags': [1, 2, 2, 2, 2, 2, 2, 2, 3], 'fname': 'T11964.txt', 'id': '0', 'ner_tags': [8, 0, 0, 0, 0, 0, 0, 0, 25], 'pos_tags': [0, 0, 0, 1, 0, 8, 8, 8, 0], 'tokens': ['ธรรมนูญ', 'แชมป์', 'สิงห์คลาสสิก', 'กวาด', 'รางวัล', 'แสน', 'สี่', 'หมื่น', 'บาท']}
{'clause_tags': [1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3], 'fname': 'T11964.txt', 'id': '1', 'ner_tags': [8, 18, 28, 0, 0, 0, 0, 6, 0, 0, 0, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 15, 25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 6, 0, 0, 0, 6], 'pos_tags': [0, 2, 0, 2, 1, 1, 2, 8, 2, 10, 2, 8, 2, 1, 0, 1, 0, 4, 7, 1, 0, 2, 8, 2, 10, 1, 10, 4, 2, 8, 2, 4, 0, 4, 0, 2, 8, 2, 10, 2, 8], 'tokens': ['ธรรมนูญ', '_', 'ศรีโรจน์', '_', 'เก็บ', 'เพิ่ม', '_', '4', '_', 'อันเดอร์พาร์', '_', '68', '_', 'เข้า', 'ป้าย', 'รับ', 'แชมป์', 'ใน', 'การ', 'เล่น', 'อาชีพ', '_', '19', '_', 'ปี', 'เป็น', 'ครั้ง', 'ที่', '_', '8', '_', 'ใน', 'ชีวิต', 'ด้วย', 'สกอร์', '_', '18', '_', 'อันเดอร์พาร์', '_', '270']}

数据字段

  • id:每个集合中的第n个句子,从0开始
  • fname:句子所来自的文本文件
  • tokens:单词标记
  • pos_tags:词性标签
  • ner_tags:命名实体标签
  • clause_tags:从句标签

数据拆分

train eval test all
words 2,714,848 240,891 207,295 3,163,034
named entities 246,529 23,176 18,315 288,020
clauses 214,645 17,486 16,050 246,181
sentences 63,310 5,620 5,250 74,180
distinct words 42,091 (oov) 2,595 (oov) 2,006 46,692
breaking spaces※ 63,310 5,620 5,250 74,180
non-breaking spaces※※ 402,380 39,920 32,204 475,504

※ Breaking space = 用作句子边界标记的空格 ※※ Non-breaking space = 不用作句子边界标记的空格

数据集创建

策划理由

[需要更多信息]

源数据

初步数据收集和标准化

[需要更多信息]

谁是源语言的制作者?

新闻文章的原始作者

注释

注释过程

详细的注释指南可在LST20注释指南.pdf中找到。

标注者是谁?

[需要更多信息]

个人和敏感信息

所有文本来自公开新闻。不会包含个人和敏感信息。

使用数据的注意事项

数据集的社会影响

  • 大规模的泰语NER和POS标注、从句和句子划分、单词标记

偏见讨论

  • 所有3,745个文本都来自新闻领域:
    • 政治:841
    • 犯罪和事故:592
    • 经济:512
    • 娱乐:472
    • 体育:402
    • 国际:279
    • 科学、技术和教育:216
    • 健康:92
    • 通用:75
    • 王室:54
    • 灾害:52
    • 发展:45
    • 环境:40
    • 文化:40
    • 天气预报:33
  • 单词标记根据Inter-BEST 2009指导原则进行。

其他已知限制

  • 一些命名实体标签与给定的标签(B,I等)不对应

其他信息

数据集策划者

NECTEC

许可信息

  • 非商业用途、研究和开源
  • 鼓励在研究和开源项目中非商业使用该数据集。请引用我们的技术报告作为参考。

    如果您希望将在我们的数据集上训练的模型永久保存并共享给泰国研究界,请将您的模型、代码和API发送给AI for Thai项目。有关更多信息,请通过thepchai@nectec.or.th联系Thepchai Supnithi博士。

    请注意,未经语料库作者授权,严禁以任何方式修改和再分发数据集。

  • 商业用途
  • 在数据集的任何商业应用中,有两个选择。

    • 选项1(实物):在1年内提供完全使用我们的注释方案注释的50,000个单词的数据集。您的数据也将与泰国的研究界共享并被认可为数据集的共同创建者。

    • 选项2(现金):需要购买整个数据集的终身许可。所购买的使用权仅涵盖此数据集。

    在这两个选项中,请通过thepchai@nectec.or.th联系Thepchai Supnithi博士获取更多信息。

    引用信息

    @article{boonkwan2020annotation,
      title={The Annotation Guideline of LST20 Corpus},
      author={Boonkwan, Prachya and Luantangsrisuk, Vorapon and Phaholphinyo, Sitthaa and Kriengket, Kanyanat and Leenoi, Dhanon and Phrombut, Charun and Boriboon, Monthika and Kosawat, Krit and Supnithi, Thepchai},
      journal={arXiv preprint arXiv:2008.05055},
      year={2020}
    }
    

    贡献

    感谢 @cstorm125 添加了此数据集。