数据集:

allocine

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

mit

数据集介绍文件清单

英文

Allociné 数据集卡片

数据集概述

Allociné 数据集是用于情感分析的法语数据集。这些文本是由 2006 年至 2020 年间 Allociné.fr 社区的成员针对不同电影撰写的影评。它包含了 10 万个积极和 10 万个消极的评价，分为训练集（160k）、验证集（20k）和测试集（20k）。

支持的任务和排行榜

文本分类，情感分类：该数据集可用于训练情感分类模型。根据预测标签与数据集中给定标签的准确性对模型的性能进行评估。基于 BERT 模型 tf-allociné ，在测试集上获得了 97.44% 的准确率。

语言

该文本为法语，为 Allociné.fr 网站用户的口语。法语的 BCP-47 代码是 fr。

数据集结构

数据实例

每个数据实例包含以下特征：review 和 label。在 Hugging Face 数据集中，标签 label 有两个可能的取值 0 和 1，分别对应负面和正面。请参考 Allociné corpus viewer 以查看更多例子。

Allociné 训练集中的一个示例如下：

{'review': 'Premier film de la saga Kozure Okami, "Le Sabre de la vengeance" est un très bon film qui mêle drame et action, et qui, en 40 ans, n'a pas pris une ride.',
 'label': 1}

数据字段

'review'：包含评论文本的字符串
'label'：整数，取值为 0 或 1，分别表示负面或正面的评论

数据拆分

Allociné 数据集分为训练集、验证集和测试集。这些拆分包含不同的电影。下表显示了每个拆分中的评论数量以及正面和负面评论的百分比。

Dataset Split	Number of Instances in Split	Percent Negative Reviews	Percent Positive Reviews
Train	160,000	49.6%	50.4%
Validation	20,000	51.0%	49.0%
Test	20,000	52.0%	48.0%

数据集创建

创建原因

Allociné 数据集的创建旨在支持大规模的法语情感分析。它与 tf-allociné 模型一起发布，并用于比较几个语言模型在该任务上的性能。

源数据

初始数据收集和标准化

使用 film page urls 列表和 allocine_scraper.py 工具收集了影评和评分。每部电影最多收集了 30 条影评。

影评最初用从 0.5 到 5.0 的评分进行标记，每个评分之间相差 0.5。评分小于等于 2 的标记为负面，评分大于等于 4 的标记为正面。数据集只包含不超过 2000 个字符的影评。

谁是源语言的生产者？

数据集中包含了由 1231621 网站的在线社区撰写的电影评论。

注释

数据集不包含任何额外的注释。

注释过程

[N/A]

谁是标注者？

[N/A]

个人和敏感信息

评论者的用户名或个人信息未与评论一起收集，但有可能被获取到。每条评论的内容可能包括有关电影演员、制作人员和情节的信息和观点。

使用数据的注意事项

数据集的社会影响

情感分类是一个复杂的任务，需要高度的语言理解能力。成功的模型可以根据情感分析的结果支持决策，尽管这样的模型目前需要高度领域特定性。

需要注意的是，数据集中所代表的社区可能不代表任何下游应用的潜在用户，训练在该数据集上的模型的行为可能因领域和用例而异。

偏见讨论

Allociné 网站列出了一些违反其 terms of service 的主题。需要进一步分析以确定版主成功删除这些内容的程度。

其他已知限制

尚未对 Allociné 数据集的限制进行调查，但 Staliūnaitė and Bonfil (2017) 详细阐述了情感分析中普遍存在的语言现象，对于模型准确标记而言存在困难，如否定、状语修饰语和评论者语用。

附加信息

数据集维护者

Allociné 数据集由 Théophile Blard 收集。

许可信息

Allociné 数据集根据 MIT License 许可。

引用信息

Théophile Blard, French sentiment analysis with BERT, (2020), GitHub repository, https://github.com/TheophileBlard/french-sentiment-analysis-with-bert

贡献

感谢 @TheophileBlard 、 @TheophileBlard 、 @lewtun 和 @mcmillanmajora 添加此数据集。

作者:

佚名

数据集大小:

15.55 KB