数据集:
TurkuNLP/register_oscar
Register Oscar 数据集是一个多语言数据集,包含了在 Oscar 数据集中用标签打上了注册信息的语言。
8个主要级别的注册信息:
更多关于标签的描述,请参见 (Douglas Biber and Jesse Egbert. 2018. Register variation online)
用于标记 Register Oscar 数据集的代码可以在 https://github.com/TurkuNLP/register-labeling 找到
目前包含以下语言:阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印尼语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中文。
有关语言和数据的更多信息,请参见 https://huggingface.co/datasets/oscar
{"id": "0", "labels": ["NA"], "text": "Zarif: Iran inajua mpango wa Saudia wa kufanya mauaji ya kigaidi dhidi ya maafisa wa ngazi za juu wa Iran\n"}