数据集:
tlc
Thai Literature Corpora (TLC):机器可读的泰国古典文学文本语料库。
它由两个数据集组成:
这是存储按章节和节的文本,非分词的 Vajirayana Digital Library 个文本。
tlc v.2.0(6/17/19:共34个文档、292,270行、31,790,734个字符)、tlc v.1.0(6/11/19:共25个文档、113,981行、28,775,761个字符)
这是从泰国国家历史语料库中提取的按行存储的文本(手动分词)。
tnhc v.1.0(6/25/19:共47个文档、756,478行、13,361,142个字符)
语言建模,语言生成
泰语
{
"ch_num": "๑",
"title": "กากี กลอนสุภาพ",
"text": [
[
"๏ จักกล่าวอดีตนิทานแต่ปางก่อน\n",
"เมื่อครั้งองค์สมเด็จพระชินวร\tยังสัญจรแสวงหาโพธิญาณ\n",
"เสวยชาติเป็นสกุณาพระยานก\tจึงชักเรื่องชาดกมาบรรหาร\n",
"หวังแสดงแห่งจิตหญิงพาล\tให้ชายชาญรู้เชิงกระสัตรี ฯ\n"
]
}
tlc v.2.0(6/17/19:共34个文档、292,270行、31,790,734个字符)、tlc v.1.0(6/11/19:共25个文档、113,981行、28,775,761个字符)
这是从泰国国家历史语料库中提取的按行存储的文本(手动分词)。
tnhc v.1.0(6/25/19:共47个文档、756,478行、13,361,142个字符)
tlc2.0 | tlc1.0 | tnhc | |
---|---|---|---|
# documents | 34 | 25 | 47 |
# lines | 292,270 | 113,981 | 756,478 |
最初,该数据集是由泰国朱拉隆功大学的 Thai Poetry Generator 进行的最终项目,由 Faculty of Engineering (工学院)的 Jitkapat Sawatphol (Faculty of Engineering,Chulalongkorn University) 负责人编制的。
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
没有个人信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 Faculty of Arts, Chulalongkorn University的 Jitkapat Sawatphol 和 Attapol Rutherford
[需要更多信息]
如果您使用该数据集,请引用以下内容:
Jitkapat Sawatphol和Attapol Rutherford. 2019. Thai Literature Corpora (TLC)。
BibTeX:
@misc{
author={Sawatphol, Jitkapat},
title={Thai Literature Corpora},
year={2019},
howpublished={\\url{https://attapol.github.io/tlc.html}}
}
感谢 @chameleonTK 添加了这个数据集。