英文

Thai Literature Corpora (TLC)数据集卡片

数据集概述

Thai Literature Corpora (TLC):机器可读的泰国古典文学文本语料库。

它由两个数据集组成:

TLC数据集

这是存储按章节和节的文本,非分词的 Vajirayana Digital Library 个文本。

tlc v.2.0(6/17/19:共34个文档、292,270行、31,790,734个字符)、tlc v.1.0(6/11/19:共25个文档、113,981行、28,775,761个字符)

TNHC数据集

这是从泰国国家历史语料库中提取的按行存储的文本(手动分词)。

tnhc v.1.0(6/25/19:共47个文档、756,478行、13,361,142个字符)

支持的任务和排行榜

语言建模,语言生成

语言

泰语

数据集结构

数据实例

{
    "ch_num": "๑",
    "title": "กากี กลอนสุภาพ",
    "text": [
      [
        "๏ จักกล่าวอดีตนิทานแต่ปางก่อน\n",
        "เมื่อครั้งองค์สมเด็จพระชินวร\tยังสัญจรแสวงหาโพธิญาณ\n",
        "เสวยชาติเป็นสกุณาพระยานก\tจึงชักเรื่องชาดกมาบรรหาร\n",
        "หวังแสดงแห่งจิตหญิงพาล\tให้ชายชาญรู้เชิงกระสัตรี ฯ\n"
      ]
}

数据字段

  • ch_num:章节编号(泰文数字,๑, ๒, ๓, ๔, ๕, ๖, ๗, ๘, ๙, ๑๐, ...)
  • title:章节名称
  • text:每个项目对应一个诗节,每行是一对对句,可以用\t进行分隔

数据拆分

tlc v.2.0(6/17/19:共34个文档、292,270行、31,790,734个字符)、tlc v.1.0(6/11/19:共25个文档、113,981行、28,775,761个字符)

TNHC数据集

这是从泰国国家历史语料库中提取的按行存储的文本(手动分词)。

tnhc v.1.0(6/25/19:共47个文档、756,478行、13,361,142个字符)

tlc2.0 tlc1.0 tnhc
# documents 34 25 47
# lines 292,270 113,981 756,478

数据集创建

策展原理

最初,该数据集是由泰国朱拉隆功大学的 Thai Poetry Generator 进行的最终项目,由 Faculty of Engineering (工学院)的 Jitkapat Sawatphol (Faculty of Engineering,Chulalongkorn University) 负责人编制的。

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

没有个人信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

感谢 Faculty of Arts, Chulalongkorn University的 Jitkapat Sawatphol Attapol Rutherford

许可信息

[需要更多信息]

引用信息

如果您使用该数据集,请引用以下内容:

Jitkapat Sawatphol和Attapol Rutherford. 2019. Thai Literature Corpora (TLC)。

BibTeX:

@misc{
  author={Sawatphol, Jitkapat},
  title={Thai Literature Corpora},
  year={2019},
  howpublished={\\url{https://attapol.github.io/tlc.html}}
}

贡献

感谢 @chameleonTK 添加了这个数据集。