数据集:
cjvt/janes_preklop
Janes-Preklop是一个斯洛文尼亚推特语料库,手动标注了代码切换:在一个句子或话语中使用两种或更多语言的词语。
斯洛文尼亚的代码切换。
数据集中的一个样本实例-每个词都用其语言进行了标注,语言可以是"default"(斯洛文尼亚语/无法分类)、en(英语)、de(德语)、hbs(塞尔维亚-克罗地亚语)、sp(西班牙语)、la(拉丁语)、ar(阿拉伯语)、fr(法语)、it(意大利语)或pt(葡萄牙语)。
{ 'id': 'tid.397447931558895616', 'words': ['Brad', 'Pitt', 'na', 'Planet', 'TV', '.', 'U', 'are', 'welcome', ';)'], 'language': ['default', 'default', 'default', 'default', 'default', 'default', 'B-en', 'I-en', 'I-en', 'I-en'] }
Špela Reher,Tomaž Erjavec,Darja Fišer。
CC BY-SA 4.0。
@misc{janes_preklop, title = {Tweet code-switching corpus Janes-Preklop 1.0}, author = {Reher, {\v S}pela and Erjavec, Toma{\v z} and Fi{\v s}er, Darja}, url = {http://hdl.handle.net/11356/1154}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, issn = {2820-4042}, year = {2017} }
感谢 @matejklemen 添加了这个数据集。