数据集:

pythainlp/thainer-corpus-v2

语言:

th

许可:

cc-by-3.0
英文

"thainer-corpus-v2" 数据集卡片

泰语命名实体识别语料库

主页: https://pythainlp.github.io/Thai-NER/version/2

训练脚本和分割数据: https://zenodo.org/record/7761354

您可以下载.conll文件以训练命名实体模型在 https://zenodo.org/record/7761354 中。

大小

  • 训练集:3,938篇文档
  • 验证集:1,313篇文档
  • 测试集:1,313篇文档

一些数据来自2018年12月至2019年11月间的众包。 https://github.com/wannaphong/thai-ner

领域

  • 新闻(IT、政治、经济、社会)
  • 公共关系(KKU新闻)
  • 通用

来源

以及更多(列表已丢失)

标签

  • 数据 - 日期
  • 时间 - 时间
  • 电子邮件 - 电子邮件
  • 长度 - 长度
  • 地点 - 地点
  • 组织 - 公司/组织
  • 个人 - 姓名
  • 手机 - 电话号码
  • 温度 - 温度
  • 网址 - URL
  • 邮政编码 - 邮政编码
  • 金额 - 数量
  • 法律 - 法规
  • 百分比 - 百分比

下载: HuggingFace Hub

引用

Wannaphong Phatthiyaphaibun.(2022)。Thai NER 2.0(2.0)[数据集]。Zenodo。 https://doi.org/10.5281/zenodo.7761354

或者BibTeX

@dataset{wannaphong_phatthiyaphaibun_2022_7761354,
  author       = {Wannaphong Phatthiyaphaibun},
  title        = {Thai NER 2.0},
  month        = sep,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.7761354},
  url          = {https://doi.org/10.5281/zenodo.7761354}
}