数据集:

yoruba_bbc_topics

语言:

yo

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

Yoruba BBC新闻主题分类数据集(yoruba_bbc_topics)数据卡

数据集概述

一个类似于AG-news的Yorùbá新闻标题主题分类数据集。新闻标题从 BBC Yoruba 个来源采集而来。

支持的任务和排名榜单

[更多信息需要补充]

语言

Yorùbá(ISO 639-1:yo)

数据集结构

数据实例

一个实例包括新闻标题句子、对应的主题标签以及发布信息(日期和网站ID)。

数据字段

  • news_title:新闻标题。
  • label:描述新闻标题主题的标签。可以是以下类之一:非洲,娱乐,健康,尼日利亚,政治,体育或世界。
  • 是:发布日期(以Yorùbá格式)。
  • bbc_url_id:BBC URL中的文章标识符。

数据拆分

[更多信息需要补充]

数据集创建

策划理由

[更多信息需要补充]

源数据

初始数据收集和规范化

[更多信息需要补充]

谁是源语言制作者?

[更多信息需要补充]

注释

注释过程

[更多信息需要补充]

注释者是谁?

[更多信息需要补充]

个人和敏感信息

[更多信息需要补充]

使用数据的注意事项

数据的社会影响

[更多信息需要补充]

偏见讨论

[更多信息需要补充]

其他已知限制

[更多信息需要补充]

其他信息

数据集编辑

[更多信息需要补充]

许可信息

[更多信息需要补充]

引用信息

[更多信息需要补充]

贡献

感谢 @michael-aloys 添加了该数据集。