数据集:

Abirate/french_book_reviews

任务:

文本分类

子任务:

multi-label-classification

语言:

计算机处理:

monolingual

语言创建人:

expert-generated crowdsourced

批注创建人:

expert-generated

源数据集:

original

数据集介绍文件清单

英文

法国图书评论数据集卡片

I-数据集概述

大多数评论数据集都是以英语为主的。虽然有其他语言的数据集，但数量并不多。通过这项工作，我希望丰富法语（我母语，同时我也会说阿拉伯语）的数据集。数据是从两个法语网站上获取的： Babelio 和 Critiques Libres 。这两个法语网站与维基百科类似，依靠志愿者的贡献来分享他们的知识和阅读经验。法语书评是一个包含大量法语书评的数据集，将会不断更新。

II-支持的任务和排行榜

多标签文本分类：该数据集可用于训练文本分类模型，用于将评论按照标签值进行分类。在这个任务中，成功通常是通过实现高准确率或低准确率来衡量的。

III-语言

数据集中的文本为法语（fr）。

IV-数据集结构

数据实例

数据集中典型实例的JSON格式示例：

{
    "book_title": "La belle histoire des maths",
    "author": "Michel Rousselet",
    "reader_review": "C’est un livre impressionnant, qui inspire le respect 
    par la qualité de sa reliure et son contenu. Je le feuillette et je découvre
    à chaque tour de page un thème distinct magnifiquement illustré. Très beau livre !",
    "rating": 4.0,
    "label": 1
}

数据字段

书名：接收读者评论的书籍的标题。
作者：接收读者评论的书籍的作者。
读者评论：读者的评论文本。
评分：使用五星评分系统对所读书籍进行评级。
标签：基于评分字段，后处理后的字段，指示评论是否为正面（1），中性（0）或负面（-1）。有关更多详细信息，请参阅 Notebook of the Dataset creation 。

数据切分

我将数据集保留为一个块（训练集），因此可以使用用户之后使用hugging face数据集库的方法（如.train_test_split（）方法）对其进行洗牌和切分。

V-数据集创建

策展理念

大多数评论数据集都是以英语为主的。虽然有其他语言的数据集，但数量并不多。通过这项工作，我希望丰富法语（法语是我的母语，同时我也会说阿拉伯语）的数据集，并在一定程度上为推动数据科学和人工智能做出贡献，不仅针对英语自然语言处理任务，还针对世界各地的其他语言。

法语是国际语言，正在不断发展。此外，它是一种充满爱意的语言。法语的丰富性，被全世界人所推崇，很大程度上与法国文化的丰富性有关。最明显的例子是法国文学，有许多世界著名的作家，如 Gustave Flaubert 、 Albert Camus 、 Victor Hugo 、 Molière 、 Simone de Beauvoir 、 Antoine de Saint-Exupéry ：《小王子》的作者，该书仍然是历史上被翻译次数最多的书籍之一。而这本书中的一句举世闻名的名言是：“Voici mon secret. Il est très simple: on ne voit bien qu'avec le coeur. L'essentiel est invisible pour les yeux.” 等等。

数据源

数据来源：两个法语网站： Babelio 和 Critiques Libres 。

初始数据收集和规范化

使用网络爬虫（使用Scrapy框架）收集了数据，并经过了额外的数据处理。有关更多详细信息，请参阅详细说明此数据集创建过程的笔记本。 Notebook of the Dataset creation

注意：该数据集将不断更新，以包括最新的法语书评，通过将旧数据集与更新后的数据集聚合在一起，以获得庞大的数据集。

数据源制作人是谁？

我使用网络爬虫创建了数据集，通过构建蜘蛛和爬虫来爬取两个法语网站 Babelio 和 Critiques Libres 的数据。

注释

注释是初始数据收集的一部分（请参阅上面的脚本）。

VI-附加信息

数据集策展人

Abir ELTAIEF

许可信息

本作品根据 CC0: Public Domain 许可。

贡献

感谢 @Abirate 创建并添加了该数据集。

作者:

Abirate

数据集大小:

4.02 MB