数据集:

cjvt/janes_tag

英文

Janes-Tag数据集卡

数据集摘要

Janes-Tag是一种手动标注的斯洛文尼亚计算机媒体交流(CMC)语料库,主要由推特组成,还包括博客、论坛和新闻评论。

语言

代码切换/非标准斯洛文尼亚语。

数据集结构

数据实例

数据集中的一个示例 - 每个单词都带有其形式(word)、词元、MSD标记(XPOS)和IOB2编码的命名实体标记。

{
  'id': 'janes.news.rtvslo.279732.2',
  'words': ['Jst', 'mam', 'tud', 'dons', 'rojstn', 'dan', '.'],
  'lemmas': ['jaz', 'imeti', 'tudi', 'danes', 'rojsten', 'dan', '.'],
  'msds': ['mte:Pp1-sn', 'mte:Vmpr1s-n', 'mte:Q', 'mte:Rgp', 'mte:Agpmsay', 'mte:Ncmsan', 'mte:Z'],
  'nes': ['O', 'O', 'O', 'O', 'O', 'O', 'O']
}

数据字段

  • id:示例的唯一标识符;
  • words:示例中的单词;
  • lemmas:示例中的词元;
  • msds:示例中的MSD;
  • nes:IOB2编码的命名实体标记(person,location,organization,misc,other)

附加信息

数据集维护者

Jakob Lenardič等(请参阅 http://hdl.handle.net/11356/1732 获取完整列表)

许可信息

CC BY-SA 4.0.

引用信息

@misc{janes_tag,
  title = {{CMC} training corpus Janes-Tag 3.0},
  author = {Lenardi{\v c}, Jakob and {\v C}ibej, Jaka and Arhar Holdt, {\v S}pela and Erjavec, Toma{\v z} and Fi{\v s}er, Darja and Ljube{\v s}i{\'c}, Nikola and Zupan, Katja and Dobrovoljc, Kaja},
  url = {http://hdl.handle.net/11356/1732},
  note = {Slovenian language resource repository {CLARIN}.{SI}},
  copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)},
  year = {2022}
}

贡献

感谢 @matejklemen 添加了此数据集。