数据集:
tlc
Thai Literature Corpora (TLC):机器可读的泰国古典文学文本语料库。
它由两个数据集组成:
这是存储按章节和节的文本,非分词的 Vajirayana Digital Library 个文本。
tlc v.2.0(6/17/19:共34个文档、292,270行、31,790,734个字符)、tlc v.1.0(6/11/19:共25个文档、113,981行、28,775,761个字符)
这是从泰国国家历史语料库中提取的按行存储的文本(手动分词)。
tnhc v.1.0(6/25/19:共47个文档、756,478行、13,361,142个字符)
语言建模,语言生成
泰语
{ "ch_num": "๑", "title": "กากี กลอนสุภาพ", "text": [ [ "๏ จักกล่าวอดีตนิทานแต่ปางก่อน\n", "เมื่อครั้งองค์สมเด็จพระชินวร\tยังสัญจรแสวงหาโพธิญาณ\n", "เสวยชาติเป็นสกุณาพระยานก\tจึงชักเรื่องชาดกมาบรรหาร\n", "หวังแสดงแห่งจิตหญิงพาล\tให้ชายชาญรู้เชิงกระสัตรี ฯ\n" ] }
tlc v.2.0(6/17/19:共34个文档、292,270行、31,790,734个字符)、tlc v.1.0(6/11/19:共25个文档、113,981行、28,775,761个字符)
这是从泰国国家历史语料库中提取的按行存储的文本(手动分词)。
tnhc v.1.0(6/25/19:共47个文档、756,478行、13,361,142个字符)
tlc2.0 | tlc1.0 | tnhc | |
---|---|---|---|
# documents | 34 | 25 | 47 |
# lines | 292,270 | 113,981 | 756,478 |
最初,该数据集是由泰国朱拉隆功大学的 Thai Poetry Generator 进行的最终项目,由 Faculty of Engineering (工学院)的 Jitkapat Sawatphol (Faculty of Engineering,Chulalongkorn University) 负责人编制的。
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
没有个人信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 Faculty of Arts, Chulalongkorn University的 Jitkapat Sawatphol 和 Attapol Rutherford
[需要更多信息]
如果您使用该数据集,请引用以下内容:
Jitkapat Sawatphol和Attapol Rutherford. 2019. Thai Literature Corpora (TLC)。
BibTeX:
@misc{ author={Sawatphol, Jitkapat}, title={Thai Literature Corpora}, year={2019}, howpublished={\\url{https://attapol.github.io/tlc.html}} }
感谢 @chameleonTK 添加了这个数据集。