数据集:

Abirate/french_book_reviews

语言:

fr

计算机处理:

monolingual

批注创建人:

expert-generated

源数据集:

original
英文

法国图书评论数据集卡片

I-数据集概述

大多数评论数据集都是以英语为主的。虽然有其他语言的数据集,但数量并不多。通过这项工作,我希望丰富法语(我母语,同时我也会说阿拉伯语)的数据集。数据是从两个法语网站上获取的: Babelio Critiques Libres 。这两个法语网站与维基百科类似,依靠志愿者的贡献来分享他们的知识和阅读经验。法语书评是一个包含大量法语书评的数据集,将会不断更新。

II-支持的任务和排行榜

  • 多标签文本分类:该数据集可用于训练文本分类模型,用于将评论按照标签值进行分类。在这个任务中,成功通常是通过实现高准确率或低准确率来衡量的。

III-语言

数据集中的文本为法语(fr)。

IV-数据集结构

数据实例

数据集中典型实例的JSON格式示例:

{
    "book_title": "La belle histoire des maths",
    "author": "Michel Rousselet",
    "reader_review": "C’est un livre impressionnant, qui inspire le respect 
    par la qualité de sa reliure et son contenu. Je le feuillette et je découvre
    à chaque tour de page un thème distinct magnifiquement illustré. Très beau livre !",
    "rating": 4.0,
    "label": 1
}
数据字段
  • 书名:接收读者评论的书籍的标题。
  • 作者:接收读者评论的书籍的作者。
  • 读者评论:读者的评论文本。
  • 评分:使用五星评分系统对所读书籍进行评级。
  • 标签:基于评分字段,后处理后的字段,指示评论是否为正面(1),中性(0)或负面(-1)。有关更多详细信息,请参阅 Notebook of the Dataset creation
数据切分

我将数据集保留为一个块(训练集),因此可以使用用户之后使用hugging face数据集库的方法(如.train_test_split()方法)对其进行洗牌和切分。

V-数据集创建

策展理念

大多数评论数据集都是以英语为主的。虽然有其他语言的数据集,但数量并不多。通过这项工作,我希望丰富法语(法语是我的母语,同时我也会说阿拉伯语)的数据集,并在一定程度上为推动数据科学和人工智能做出贡献,不仅针对英语自然语言处理任务,还针对世界各地的其他语言。

法语是国际语言,正在不断发展。此外,它是一种充满爱意的语言。法语的丰富性,被全世界人所推崇,很大程度上与法国文化的丰富性有关。最明显的例子是法国文学,有许多世界著名的作家,如 Gustave Flaubert Albert Camus Victor Hugo Molière Simone de Beauvoir Antoine de Saint-Exupéry :《小王子》的作者,该书仍然是历史上被翻译次数最多的书籍之一。而这本书中的一句举世闻名的名言是:“Voici mon secret. Il est très simple: on ne voit bien qu'avec le coeur. L'essentiel est invisible pour les yeux.” 等等。

数据源

数据来源:两个法语网站: Babelio Critiques Libres

初始数据收集和规范化

使用网络爬虫(使用Scrapy框架)收集了数据,并经过了额外的数据处理。有关更多详细信息,请参阅详细说明此数据集创建过程的笔记本。 Notebook of the Dataset creation

注意:该数据集将不断更新,以包括最新的法语书评,通过将旧数据集与更新后的数据集聚合在一起,以获得庞大的数据集。

数据源制作人是谁?

我使用网络爬虫创建了数据集,通过构建蜘蛛和爬虫来爬取两个法语网站 Babelio Critiques Libres 的数据。

注释

注释是初始数据收集的一部分(请参阅上面的脚本)。

VI-附加信息

数据集策展人

Abir ELTAIEF

许可信息

本作品根据 CC0: Public Domain 许可。

贡献

感谢 @Abirate 创建并添加了该数据集。