数据集:

lst20

任务:

标记分类

子任务:

named-entity-recognition part-of-speech

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

其他:

word-segmentation clause-segmentation sentence-segmentation

许可:

other

数据集介绍文件清单

英文

LST20数据集卡

数据集摘要

LST20语料库是由泰国国家电子与计算机技术中心（NECTEC）开发的用于泰语处理的数据集。它提供了五层语言注释：词边界、词性标注、命名实体、从句边界和句子边界。总体规模上，它包含3,164,002个单词、288,020个命名实体、248,181个从句和74,180个句子，同时使用16种不同的词性标签进行注释。所有3,745个文档还使用了15种新闻类型之一进行了注释。就其规模而言，该数据集足够大，可以用于开发NLP的联合神经模型。手动下载：了解更多详细信息，请参阅下载的AIFORTHAI-LST20Corpus.tar.gz文件中的LST20注释指南.pdf和LST20简要规范.pdf。

支持的任务和排行榜

POS标注
NER标注
从句划分
句子划分
单词标记

语言

泰语

数据集结构

数据实例

{'clause_tags': [1, 2, 2, 2, 2, 2, 2, 2, 3], 'fname': 'T11964.txt', 'id': '0', 'ner_tags': [8, 0, 0, 0, 0, 0, 0, 0, 25], 'pos_tags': [0, 0, 0, 1, 0, 8, 8, 8, 0], 'tokens': ['ธรรมนูญ', 'แชมป์', 'สิงห์คลาสสิก', 'กวาด', 'รางวัล', 'แสน', 'สี่', 'หมื่น', 'บาท']}
{'clause_tags': [1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3], 'fname': 'T11964.txt', 'id': '1', 'ner_tags': [8, 18, 28, 0, 0, 0, 0, 6, 0, 0, 0, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 15, 25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 6, 0, 0, 0, 6], 'pos_tags': [0, 2, 0, 2, 1, 1, 2, 8, 2, 10, 2, 8, 2, 1, 0, 1, 0, 4, 7, 1, 0, 2, 8, 2, 10, 1, 10, 4, 2, 8, 2, 4, 0, 4, 0, 2, 8, 2, 10, 2, 8], 'tokens': ['ธรรมนูญ', '_', 'ศรีโรจน์', '_', 'เก็บ', 'เพิ่ม', '_', '4', '_', 'อันเดอร์พาร์', '_', '68', '_', 'เข้า', 'ป้าย', 'รับ', 'แชมป์', 'ใน', 'การ', 'เล่น', 'อาชีพ', '_', '19', '_', 'ปี', 'เป็น', 'ครั้ง', 'ที่', '_', '8', '_', 'ใน', 'ชีวิต', 'ด้วย', 'สกอร์', '_', '18', '_', 'อันเดอร์พาร์', '_', '270']}

数据字段

id：每个集合中的第n个句子，从0开始
fname：句子所来自的文本文件
tokens：单词标记
pos_tags：词性标签
ner_tags：命名实体标签
clause_tags：从句标签

数据拆分

train	eval	test	all
words	2,714,848	240,891	207,295	3,163,034
named entities	246,529	23,176	18,315	288,020
clauses	214,645	17,486	16,050	246,181
sentences	63,310	5,620	5,250	74,180
distinct words	42,091	(oov) 2,595	(oov) 2,006	46,692
breaking spaces※	63,310	5,620	5,250	74,180
non-breaking spaces※※	402,380	39,920	32,204	475,504

※ Breaking space = 用作句子边界标记的空格 ※※ Non-breaking space = 不用作句子边界标记的空格

数据集创建

策划理由

[需要更多信息]

源数据

初步数据收集和标准化

[需要更多信息]

谁是源语言的制作者？

新闻文章的原始作者

注释

注释过程

详细的注释指南可在LST20注释指南.pdf中找到。

标注者是谁？

[需要更多信息]

个人和敏感信息

所有文本来自公开新闻。不会包含个人和敏感信息。

使用数据的注意事项

数据集的社会影响

大规模的泰语NER和POS标注、从句和句子划分、单词标记

偏见讨论

所有3,745个文本都来自新闻领域：
- 政治：841
- 犯罪和事故：592
- 经济：512
- 娱乐：472
- 体育：402
- 国际：279
- 科学、技术和教育：216
- 健康：92
- 通用：75
- 王室：54
- 灾害：52
- 发展：45
- 环境：40
- 文化：40
- 天气预报：33
单词标记根据Inter-BEST 2009指导原则进行。

其他已知限制

一些命名实体标签与给定的标签（B，I等）不对应

其他信息

数据集策划者

NECTEC

许可信息

非商业用途、研究和开源

鼓励在研究和开源项目中非商业使用该数据集。请引用我们的技术报告作为参考。

如果您希望将在我们的数据集上训练的模型永久保存并共享给泰国研究界，请将您的模型、代码和API发送给AI for Thai项目。有关更多信息，请通过thepchai@nectec.or.th联系Thepchai Supnithi博士。

请注意，未经语料库作者授权，严禁以任何方式修改和再分发数据集。

商业用途

在数据集的任何商业应用中，有两个选择。

选项1（实物）：在1年内提供完全使用我们的注释方案注释的50,000个单词的数据集。您的数据也将与泰国的研究界共享并被认可为数据集的共同创建者。
选项2（现金）：需要购买整个数据集的终身许可。所购买的使用权仅涵盖此数据集。

在这两个选项中，请通过thepchai@nectec.or.th联系Thepchai Supnithi博士获取更多信息。

引用信息

@article{boonkwan2020annotation,
  title={The Annotation Guideline of LST20 Corpus},
  author={Boonkwan, Prachya and Luantangsrisuk, Vorapon and Phaholphinyo, Sitthaa and Kriengket, Kanyanat and Leenoi, Dhanon and Phrombut, Charun and Boriboon, Monthika and Kosawat, Krit and Supnithi, Thepchai},
  journal={arXiv preprint arXiv:2008.05055},
  year={2020}
}

贡献

感谢 @cstorm125 添加了此数据集。

作者:

佚名

数据集大小:

20.92 KB