数据集:
dbrd
语言:
nl计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original预印本库:
arxiv:1910.00896许可:
cc-by-nc-sa-4.0DBRD(发音为dee-bird)数据集包含超过11万个图书评论,其中2.2万个具有相关的二分类情感极性标签。它旨在成为荷兰语情感分类的基准,并由于在该任务中缺乏适用的荷兰语注释数据集而创建。
使用 langdetect 进行过滤,过滤掉了非荷兰语评论,因此所有评论应为荷兰语(nl)。这些评论是由 Hebban 上的评论者撰写,该网站是荷兰的一个图书评论网站。
数据集包含三个子集:train、test和unsupervised。train和test集包含标签,而unsupervised集没有(unsupervised中每个实例的标签值均为-1)。以下是一个正面评价的示例,其标签值为1。
{ 'label': 1, 'text': 'Super om te lezen hoe haar leven is vergaan.\nBijzonder dat ze zo openhartig is geweest.' }
train和test集是通过提取所有非中性评论构建的,因为我们希望为每个实例分配正面或负面极性标签。此外,正面(pos)和负面(neg)标签在train和test集中是平衡的。其余部分被添加到unsupervised集中。
Train | Test | Unsupervised | |
---|---|---|---|
# No. texts | 20028 | 2224 | 96264 |
% of total | 16.9% | 1.9% | 81.2% |
由于缺乏适用于情感分类的荷兰文文本注释,因此创建了此数据集。因此,过滤掉了非荷兰文文本,但除此以外没有进行任何策划工作。
这些图书评论来自 Hebban ,这是一个荷兰的图书评论平台。
初始数据收集和标准化DBRD GitHub repository 中可以找到爬虫和预处理过程的源代码。
谁是源语言的制作者?这些评论由 Hebban 的用户撰写,质量参差不齐。有些评论很短,其他评论很长,并且很多包含拼写错误和其他错误。
每个图书评论都附带一个1到5星的评级。通过将用户提供的评级映射到正面或负面标签来生成注释。1和2星的评级被赋予负面标签0,4和5星的评级被赋予正面标签1。评级为3星的评论被视为中性评论,将其排除在train/test集之外,并添加到unsupervised集中。
注释过程Hebban 的用户不知道他们的评论将被用于创建此数据集。
谁是注释者?注释者是编写与注释相关的图书评论的 Hebban 用户。任何人都可以在 Hebban 上注册,无法了解此群体的人口统计信息。
这些图书评论和评级在 Hebban 上是公开可见的,并且不包含任何个人或其他敏感信息。
虽然仅仅预测图书评论的情感本身并不那么有趣,但该数据集的价值在于用于模型的基准测试。该数据集包含一些常见的互联网上的挑战,例如拼写错误和其他错误。因此,它非常有用于验证模型在现实世界中的性能。这些数据集对于英语来说很丰富,但是对于荷兰语来说很难找到,因此对于该语言的ML任务来说它们是宝贵的资源。
[需要更多信息]
Hebban 上的评论通常是用荷兰语撰写的,但也有一些用英语和可能用其他语言撰写的评论。尽管我们已尽力过滤掉非荷兰语文本,但这样做并不容易。例如,一些评论是多种语言混合的,可能会漏掉这些评论。还要注意,一些商业活动可能会出现在文本中,使其与其他评论不同,并影响您的模型。尽管在大多数情况下,这并不构成主要问题,但我们只是简要提及一下。
本数据集由 Benjamin van der Burgh 创建,在 Leiden Institute of Advanced Computer Science (LIACS) 工作时。
该数据集根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 授权。
在您的工作中使用该数据集时,请使用以下引用。
@article{DBLP:journals/corr/abs-1910-00896, author = {Benjamin van der Burgh and Suzan Verberne}, title = {The merits of Universal Language Model Fine-tuning for Small Datasets - a case with Dutch book reviews}, journal = {CoRR}, volume = {abs/1910.00896}, year = {2019}, url = {http://arxiv.org/abs/1910.00896}, archivePrefix = {arXiv}, eprint = {1910.00896}, timestamp = {Fri, 04 Oct 2019 12:28:06 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1910-00896.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
感谢 @benjaminvdb 提供此数据集。