数据集:
allocine
任务:
文本分类语言:
fr计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
mitAllociné 数据集是用于情感分析的法语数据集。这些文本是由 2006 年至 2020 年间 Allociné.fr 社区的成员针对不同电影撰写的影评。它包含了 10 万个积极和 10 万个消极的评价,分为训练集(160k)、验证集(20k)和测试集(20k)。
该文本为法语,为 Allociné.fr 网站用户的口语。法语的 BCP-47 代码是 fr。
每个数据实例包含以下特征:review 和 label。在 Hugging Face 数据集中,标签 label 有两个可能的取值 0 和 1,分别对应负面和正面。请参考 Allociné corpus viewer 以查看更多例子。
Allociné 训练集中的一个示例如下:
{'review': 'Premier film de la saga Kozure Okami, "Le Sabre de la vengeance" est un très bon film qui mêle drame et action, et qui, en 40 ans, n'a pas pris une ride.', 'label': 1}
Allociné 数据集分为训练集、验证集和测试集。这些拆分包含不同的电影。下表显示了每个拆分中的评论数量以及正面和负面评论的百分比。
Dataset Split | Number of Instances in Split | Percent Negative Reviews | Percent Positive Reviews |
---|---|---|---|
Train | 160,000 | 49.6% | 50.4% |
Validation | 20,000 | 51.0% | 49.0% |
Test | 20,000 | 52.0% | 48.0% |
Allociné 数据集的创建旨在支持大规模的法语情感分析。它与 tf-allociné 模型一起发布,并用于比较几个语言模型在该任务上的性能。
使用 film page urls 列表和 allocine_scraper.py 工具收集了影评和评分。每部电影最多收集了 30 条影评。
影评最初用从 0.5 到 5.0 的评分进行标记,每个评分之间相差 0.5。评分小于等于 2 的标记为负面,评分大于等于 4 的标记为正面。数据集只包含不超过 2000 个字符的影评。
谁是源语言的生产者?数据集中包含了由 1231621 网站的在线社区撰写的电影评论。
数据集不包含任何额外的注释。
注释过程[N/A]
谁是标注者?[N/A]
评论者的用户名或个人信息未与评论一起收集,但有可能被获取到。每条评论的内容可能包括有关电影演员、制作人员和情节的信息和观点。
情感分类是一个复杂的任务,需要高度的语言理解能力。成功的模型可以根据情感分析的结果支持决策,尽管这样的模型目前需要高度领域特定性。
需要注意的是,数据集中所代表的社区可能不代表任何下游应用的潜在用户,训练在该数据集上的模型的行为可能因领域和用例而异。
Allociné 网站列出了一些违反其 terms of service 的主题。需要进一步分析以确定版主成功删除这些内容的程度。
尚未对 Allociné 数据集的限制进行调查,但 Staliūnaitė and Bonfil (2017) 详细阐述了情感分析中普遍存在的语言现象,对于模型准确标记而言存在困难,如否定、状语修饰语和评论者语用。
Allociné 数据集由 Théophile Blard 收集。
Allociné 数据集根据 MIT License 许可。
Théophile Blard, French sentiment analysis with BERT, (2020), GitHub repository, https://github.com/TheophileBlard/french-sentiment-analysis-with-bert
感谢 @TheophileBlard 、 @TheophileBlard 、 @lewtun 和 @mcmillanmajora 添加此数据集。