数据集:

TurkuNLP/register_oscar

英文

register_oscar 数据集卡片

数据集摘要

Register Oscar 数据集是一个多语言数据集,包含了在 Oscar 数据集中用标签打上了注册信息的语言。

8个主要级别的注册信息:

  • 叙述 (NA)
  • 信息描述 (IN)
  • 意见 (OP)
  • 互动讨论 (ID)
  • 如何/指示 (HI)
  • 信息说服 (IP)
  • 抒情 (LY)
  • 口语交流 (SP)

更多关于标签的描述,请参见 (Douglas Biber and Jesse Egbert. 2018. Register variation online)

用于标记 Register Oscar 数据集的代码可以在 https://github.com/TurkuNLP/register-labeling 找到

语言

目前包含以下语言:阿拉伯语、孟加拉语、加泰罗尼亚语、英语、西班牙语、巴斯克语、法语、印地语、印尼语、葡萄牙语、斯瓦希里语、乌尔都语、越南语和中文。

有关语言和数据的更多信息,请参见 https://huggingface.co/datasets/oscar

数据集结构

数据示例

{"id": "0", "labels": ["NA"], "text": "Zarif: Iran inajua mpango wa Saudia wa kufanya mauaji ya kigaidi dhidi ya maafisa wa ngazi za juu wa Iran\n"}

数据字段

  • id:文档的唯一标识符(来自 Oscar 数据集)
  • labels:分配给文本的标签列表
  • text:文档的原始文本(与 Oscar 数据集中的文本相同)