英文

DBRD 数据集卡片

数据集概述

DBRD(发音为dee-bird)数据集包含超过11万个图书评论,其中2.2万个具有相关的二分类情感极性标签。它旨在成为荷兰语情感分类的基准,并由于在该任务中缺乏适用的荷兰语注释数据集而创建。

支持的任务和排行榜

  • text-generation:该数据集可用于训练序列建模模型,更具体地说是语言建模。
  • text-classification:该数据集可用于训练文本分类模型,更具体地说是使用提供的正面/负面情感极性标签进行情感分类。

语言

使用 langdetect 进行过滤,过滤掉了非荷兰语评论,因此所有评论应为荷兰语(nl)。这些评论是由 Hebban 上的评论者撰写,该网站是荷兰的一个图书评论网站。

数据集结构

数据实例

数据集包含三个子集:train、test和unsupervised。train和test集包含标签,而unsupervised集没有(unsupervised中每个实例的标签值均为-1)。以下是一个正面评价的示例,其标签值为1。

{
  'label': 1,
  'text': 'Super om te lezen hoe haar leven is vergaan.\nBijzonder dat ze zo openhartig is geweest.'
}

数据字段

  • label:在监督集train和test中,标签为0(负面)或1(正面)。在无监督集中,标签始终为-1。
  • text:以utf-8编码字符串形式的图书评论。

数据拆分

train和test集是通过提取所有非中性评论构建的,因为我们希望为每个实例分配正面或负面极性标签。此外,正面(pos)和负面(neg)标签在train和test集中是平衡的。其余部分被添加到unsupervised集中。

Train Test Unsupervised
# No. texts 20028 2224 96264
% of total 16.9% 1.9% 81.2%

数据集创建

策划原理

由于缺乏适用于情感分类的荷兰文文本注释,因此创建了此数据集。因此,过滤掉了非荷兰文文本,但除此以外没有进行任何策划工作。

源数据

这些图书评论来自 Hebban ,这是一个荷兰的图书评论平台。

初始数据收集和标准化

DBRD GitHub repository 中可以找到爬虫和预处理过程的源代码。

谁是源语言的制作者?

这些评论由 Hebban 的用户撰写,质量参差不齐。有些评论很短,其他评论很长,并且很多包含拼写错误和其他错误。

注释

每个图书评论都附带一个1到5星的评级。通过将用户提供的评级映射到正面或负面标签来生成注释。1和2星的评级被赋予负面标签0,4和5星的评级被赋予正面标签1。评级为3星的评论被视为中性评论,将其排除在train/test集之外,并添加到unsupervised集中。

注释过程

Hebban 的用户不知道他们的评论将被用于创建此数据集。

谁是注释者?

注释者是编写与注释相关的图书评论的 Hebban 用户。任何人都可以在 Hebban 上注册,无法了解此群体的人口统计信息。

个人和敏感信息

这些图书评论和评级在 Hebban 上是公开可见的,并且不包含任何个人或其他敏感信息。

使用数据的注意事项

数据的社会影响

虽然仅仅预测图书评论的情感本身并不那么有趣,但该数据集的价值在于用于模型的基准测试。该数据集包含一些常见的互联网上的挑战,例如拼写错误和其他错误。因此,它非常有用于验证模型在现实世界中的性能。这些数据集对于英语来说很丰富,但是对于荷兰语来说很难找到,因此对于该语言的ML任务来说它们是宝贵的资源。

偏见讨论

[需要更多信息]

其他已知限制

Hebban 上的评论通常是用荷兰语撰写的,但也有一些用英语和可能用其他语言撰写的评论。尽管我们已尽力过滤掉非荷兰语文本,但这样做并不容易。例如,一些评论是多种语言混合的,可能会漏掉这些评论。还要注意,一些商业活动可能会出现在文本中,使其与其他评论不同,并影响您的模型。尽管在大多数情况下,这并不构成主要问题,但我们只是简要提及一下。

附加信息

数据集策划人员

本数据集由 Benjamin van der Burgh 创建,在 Leiden Institute of Advanced Computer Science (LIACS) 工作时。

许可信息

该数据集根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 授权。

引用信息

在您的工作中使用该数据集时,请使用以下引用。

@article{DBLP:journals/corr/abs-1910-00896,
  author    = {Benjamin van der Burgh and
               Suzan Verberne},
  title     = {The merits of Universal Language Model Fine-tuning for Small Datasets
               - a case with Dutch book reviews},
  journal   = {CoRR},
  volume    = {abs/1910.00896},
  year      = {2019},
  url       = {http://arxiv.org/abs/1910.00896},
  archivePrefix = {arXiv},
  eprint    = {1910.00896},
  timestamp = {Fri, 04 Oct 2019 12:28:06 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1910-00896.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @benjaminvdb 提供此数据集。