数据集:
lst20
任务:
标记分类语言:
th计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
otherLST20语料库是由泰国国家电子与计算机技术中心(NECTEC)开发的用于泰语处理的数据集。它提供了五层语言注释:词边界、词性标注、命名实体、从句边界和句子边界。总体规模上,它包含3,164,002个单词、288,020个命名实体、248,181个从句和74,180个句子,同时使用16种不同的词性标签进行注释。所有3,745个文档还使用了15种新闻类型之一进行了注释。就其规模而言,该数据集足够大,可以用于开发NLP的联合神经模型。手动下载:了解更多详细信息,请参阅下载的AIFORTHAI-LST20Corpus.tar.gz文件中的LST20注释指南.pdf和LST20简要规范.pdf。
泰语
{'clause_tags': [1, 2, 2, 2, 2, 2, 2, 2, 3], 'fname': 'T11964.txt', 'id': '0', 'ner_tags': [8, 0, 0, 0, 0, 0, 0, 0, 25], 'pos_tags': [0, 0, 0, 1, 0, 8, 8, 8, 0], 'tokens': ['ธรรมนูญ', 'แชมป์', 'สิงห์คลาสสิก', 'กวาด', 'รางวัล', 'แสน', 'สี่', 'หมื่น', 'บาท']} {'clause_tags': [1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3], 'fname': 'T11964.txt', 'id': '1', 'ner_tags': [8, 18, 28, 0, 0, 0, 0, 6, 0, 0, 0, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5, 15, 25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 6, 0, 0, 0, 6], 'pos_tags': [0, 2, 0, 2, 1, 1, 2, 8, 2, 10, 2, 8, 2, 1, 0, 1, 0, 4, 7, 1, 0, 2, 8, 2, 10, 1, 10, 4, 2, 8, 2, 4, 0, 4, 0, 2, 8, 2, 10, 2, 8], 'tokens': ['ธรรมนูญ', '_', 'ศรีโรจน์', '_', 'เก็บ', 'เพิ่ม', '_', '4', '_', 'อันเดอร์พาร์', '_', '68', '_', 'เข้า', 'ป้าย', 'รับ', 'แชมป์', 'ใน', 'การ', 'เล่น', 'อาชีพ', '_', '19', '_', 'ปี', 'เป็น', 'ครั้ง', 'ที่', '_', '8', '_', 'ใน', 'ชีวิต', 'ด้วย', 'สกอร์', '_', '18', '_', 'อันเดอร์พาร์', '_', '270']}
train | eval | test | all | |
---|---|---|---|---|
words | 2,714,848 | 240,891 | 207,295 | 3,163,034 |
named entities | 246,529 | 23,176 | 18,315 | 288,020 |
clauses | 214,645 | 17,486 | 16,050 | 246,181 |
sentences | 63,310 | 5,620 | 5,250 | 74,180 |
distinct words | 42,091 | (oov) 2,595 | (oov) 2,006 | 46,692 |
breaking spaces※ | 63,310 | 5,620 | 5,250 | 74,180 |
non-breaking spaces※※ | 402,380 | 39,920 | 32,204 | 475,504 |
※ Breaking space = 用作句子边界标记的空格 ※※ Non-breaking space = 不用作句子边界标记的空格
[需要更多信息]
[需要更多信息]
谁是源语言的制作者?新闻文章的原始作者
详细的注释指南可在LST20注释指南.pdf中找到。
标注者是谁?[需要更多信息]
所有文本来自公开新闻。不会包含个人和敏感信息。
鼓励在研究和开源项目中非商业使用该数据集。请引用我们的技术报告作为参考。
如果您希望将在我们的数据集上训练的模型永久保存并共享给泰国研究界,请将您的模型、代码和API发送给AI for Thai项目。有关更多信息,请通过thepchai@nectec.or.th联系Thepchai Supnithi博士。
请注意,未经语料库作者授权,严禁以任何方式修改和再分发数据集。
在数据集的任何商业应用中,有两个选择。
选项1(实物):在1年内提供完全使用我们的注释方案注释的50,000个单词的数据集。您的数据也将与泰国的研究界共享并被认可为数据集的共同创建者。
选项2(现金):需要购买整个数据集的终身许可。所购买的使用权仅涵盖此数据集。
在这两个选项中,请通过thepchai@nectec.or.th联系Thepchai Supnithi博士获取更多信息。
@article{boonkwan2020annotation, title={The Annotation Guideline of LST20 Corpus}, author={Boonkwan, Prachya and Luantangsrisuk, Vorapon and Phaholphinyo, Sitthaa and Kriengket, Kanyanat and Leenoi, Dhanon and Phrombut, Charun and Boriboon, Monthika and Kosawat, Krit and Supnithi, Thepchai}, journal={arXiv preprint arXiv:2008.05055}, year={2020} }
感谢 @cstorm125 添加了此数据集。