数据集:
gnad10
任务:
文本分类子任务:
topic-classification语言:
de计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced许可:
cc-by-nc-sa-4.010k德语新闻文章数据集包含来自奥地利在线报纸 DER Standard 的10273篇德语新闻文章。每篇新闻文章都被报纸雇佣的专业论坛主持人分类到9个类别中。这个数据集是从原始的 One Million Posts Corpus 扩展而来的。创建这个数据集是为了支持德语主题分类,因为对于英语数据集有效的分类器在德语数据集上可能不太有效,这是由于德语中有更多的屈折和更长的复合词。此外,这个数据集也可以作为德语主题分类的基准数据集。
这个数据集可以用来训练一个模型,比如 BERT ,用于对德语新闻文章进行主题分类。有9个可能的类别。
文本是德语,来自奥地利的在线报纸网站。德语的BCP-47代码是de-DE。
一个示例数据实例包含一篇德语新闻文章(标题和内容连接在一起)及其相应的主题类别。
{'text': ''Die Gewerkschaft GPA-djp lanciert den "All-in-Rechner" und findet, dass die Vertragsform auf die Führungsebene beschränkt gehört. Wien – Die Gewerkschaft GPA-djp sieht Handlungsbedarf bei sogenannten All-in-Verträgen.' 'label': 'Wirtschaft' }
数据分为一个包含9245篇文章的训练集和一个包含1028篇文章的测试集。
创建这个数据集是为了支持德语文本的主题分类。英语文本分类数据集很常见( AG News 和 20 Newsgroup ),但是德语数据集较少。对于在德语文本上进行模型训练,仅使用在英语数据集上训练的分类器可能效果不好,因为德语和英语在语法上有所不同。因此,有必要提供一个用于德语数据集的数据集以有效评估模型性能。
10k德语新闻文章数据集是从百万帖子语料库扩展而来的。从这个更大的语料库中收集了10273篇德语新闻文章。在百万帖子语料库中,每篇文章都有一个主题路径,比如Newsroom/Wirtschaft/Wirtschaftpolitik/Finanzmaerkte/Griechenlandkrise。10kGNAD使用主题路径的第二部分作为主题标签。文章标题和正文被连接成一个文本,为了避免对经常在特定主题上写作的作者进行关键词分类,作者姓名被删除。
数据源语言生成者是谁?语言生成者是奥地利报纸 DER Standard 的作者们。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集由蒂莫·布洛克(Timo Block)创建。
该数据集在Creative Commons Attribution-NonCommercial-ShareAlike 4.0协议下获得许可。
如果你使用了"一百万个帖子语料库"的数据集,请考虑引用该数据集的作者。
@InProceedings{Schabus2017, Author = {Dietmar Schabus and Marcin Skowron and Martin Trapp}, Title = {One Million Posts: A Data Set of German Online Discussions}, Booktitle = {Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR)}, Pages = {1241--1244}, Year = {2017}, Address = {Tokyo, Japan}, Doi = {10.1145/3077136.3080711}, Month = aug }
感谢 @stevhliu 添加了这个数据集。