数据集:

cjvt/janes_preklop

英文

Janes-Preklop数据集卡片

数据集摘要

Janes-Preklop是一个斯洛文尼亚推特语料库,手动标注了代码切换:在一个句子或话语中使用两种或更多语言的词语。

语言

斯洛文尼亚的代码切换。

数据集结构

数据实例

数据集中的一个样本实例-每个词都用其语言进行了标注,语言可以是"default"(斯洛文尼亚语/无法分类)、en(英语)、de(德语)、hbs(塞尔维亚-克罗地亚语)、sp(西班牙语)、la(拉丁语)、ar(阿拉伯语)、fr(法语)、it(意大利语)或pt(葡萄牙语)。

{
    'id': 'tid.397447931558895616', 
    'words': ['Brad', 'Pitt', 'na', 'Planet', 'TV', '.', 'U', 'are', 'welcome', ';)'], 
    'language': ['default', 'default', 'default', 'default', 'default', 'default', 'B-en', 'I-en', 'I-en', 'I-en']
}

数据字段

  • id:示例的唯一标识符;
  • words:句子中的词语;
  • language:每个词的语言。

额外信息

数据集维护者

Špela Reher,Tomaž Erjavec,Darja Fišer。

许可信息

CC BY-SA 4.0。

引用信息

@misc{janes_preklop,
  title = {Tweet code-switching corpus Janes-Preklop 1.0},
  author = {Reher, {\v S}pela and Erjavec, Toma{\v z} and Fi{\v s}er, Darja},
  url = {http://hdl.handle.net/11356/1154},
  note = {Slovenian language resource repository {CLARIN}.{SI}},
  copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)},
  issn = {2820-4042},
  year = {2017}
}

贡献

感谢 @matejklemen 添加了这个数据集。