数据集:

gnad10

语言:

de

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced
英文

10k德语新闻文章数据集的数据卡

数据集概述

10k德语新闻文章数据集包含来自奥地利在线报纸 DER Standard 的10273篇德语新闻文章。每篇新闻文章都被报纸雇佣的专业论坛主持人分类到9个类别中。这个数据集是从原始的 One Million Posts Corpus 扩展而来的。创建这个数据集是为了支持德语主题分类,因为对于英语数据集有效的分类器在德语数据集上可能不太有效,这是由于德语中有更多的屈折和更长的复合词。此外,这个数据集也可以作为德语主题分类的基准数据集。

支持的任务和排行榜

这个数据集可以用来训练一个模型,比如 BERT ,用于对德语新闻文章进行主题分类。有9个可能的类别。

语言

文本是德语,来自奥地利的在线报纸网站。德语的BCP-47代码是de-DE。

数据集结构

数据实例

一个示例数据实例包含一篇德语新闻文章(标题和内容连接在一起)及其相应的主题类别。

{'text': ''Die Gewerkschaft GPA-djp lanciert den "All-in-Rechner" und findet, dass die Vertragsform auf die Führungsebene beschränkt gehört. Wien – Die Gewerkschaft GPA-djp sieht Handlungsbedarf bei sogenannten All-in-Verträgen.'
'label': 'Wirtschaft'
}

数据字段

  • text : 包含文章的标题和内容
  • label : 可以是9个可能的主题类别之一( Web , Panorama , International , Wirtschaft , Sport , Inland , Etat , Wissenschaft , Kultur )

数据拆分

数据分为一个包含9245篇文章的训练集和一个包含1028篇文章的测试集。

数据集创建

创建原因

创建这个数据集是为了支持德语文本的主题分类。英语文本分类数据集很常见( AG News 20 Newsgroup ),但是德语数据集较少。对于在德语文本上进行模型训练,仅使用在英语数据集上训练的分类器可能效果不好,因为德语和英语在语法上有所不同。因此,有必要提供一个用于德语数据集的数据集以有效评估模型性能。

数据源

初始数据收集和规范化

10k德语新闻文章数据集是从百万帖子语料库扩展而来的。从这个更大的语料库中收集了10273篇德语新闻文章。在百万帖子语料库中,每篇文章都有一个主题路径,比如Newsroom/Wirtschaft/Wirtschaftpolitik/Finanzmaerkte/Griechenlandkrise。10kGNAD使用主题路径的第二部分作为主题标签。文章标题和正文被连接成一个文本,为了避免对经常在特定主题上写作的作者进行关键词分类,作者姓名被删除。

数据源语言生成者是谁?

语言生成者是奥地利报纸 DER Standard 的作者们。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

该数据集由蒂莫·布洛克(Timo Block)创建。

许可信息

该数据集在Creative Commons Attribution-NonCommercial-ShareAlike 4.0协议下获得许可。

引用信息

如果你使用了"一百万个帖子语料库"的数据集,请考虑引用该数据集的作者。

@InProceedings{Schabus2017,
  Author    = {Dietmar Schabus and Marcin Skowron and Martin Trapp},
  Title     = {One Million Posts: A Data Set of German Online Discussions},
  Booktitle = {Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR)},
  Pages     = {1241--1244},
  Year      = {2017},
  Address   = {Tokyo, Japan},
  Doi       = {10.1145/3077136.3080711},
  Month     = aug
}

贡献

感谢 @stevhliu 添加了这个数据集。