数据集:
Abirate/french_book_reviews
大多数评论数据集都是以英语为主的。虽然有其他语言的数据集,但数量并不多。通过这项工作,我希望丰富法语(我母语,同时我也会说阿拉伯语)的数据集。数据是从两个法语网站上获取的: Babelio 和 Critiques Libres 。这两个法语网站与维基百科类似,依靠志愿者的贡献来分享他们的知识和阅读经验。法语书评是一个包含大量法语书评的数据集,将会不断更新。
数据集中的文本为法语(fr)。
数据集中典型实例的JSON格式示例:
{ "book_title": "La belle histoire des maths", "author": "Michel Rousselet", "reader_review": "C’est un livre impressionnant, qui inspire le respect par la qualité de sa reliure et son contenu. Je le feuillette et je découvre à chaque tour de page un thème distinct magnifiquement illustré. Très beau livre !", "rating": 4.0, "label": 1 }数据字段
我将数据集保留为一个块(训练集),因此可以使用用户之后使用hugging face数据集库的方法(如.train_test_split()方法)对其进行洗牌和切分。
大多数评论数据集都是以英语为主的。虽然有其他语言的数据集,但数量并不多。通过这项工作,我希望丰富法语(法语是我的母语,同时我也会说阿拉伯语)的数据集,并在一定程度上为推动数据科学和人工智能做出贡献,不仅针对英语自然语言处理任务,还针对世界各地的其他语言。
法语是国际语言,正在不断发展。此外,它是一种充满爱意的语言。法语的丰富性,被全世界人所推崇,很大程度上与法国文化的丰富性有关。最明显的例子是法国文学,有许多世界著名的作家,如 Gustave Flaubert 、 Albert Camus 、 Victor Hugo 、 Molière 、 Simone de Beauvoir 、 Antoine de Saint-Exupéry :《小王子》的作者,该书仍然是历史上被翻译次数最多的书籍之一。而这本书中的一句举世闻名的名言是:“Voici mon secret. Il est très simple: on ne voit bien qu'avec le coeur. L'essentiel est invisible pour les yeux.” 等等。
数据源数据来源:两个法语网站: Babelio 和 Critiques Libres 。
初始数据收集和规范化使用网络爬虫(使用Scrapy框架)收集了数据,并经过了额外的数据处理。有关更多详细信息,请参阅详细说明此数据集创建过程的笔记本。 Notebook of the Dataset creation
注意:该数据集将不断更新,以包括最新的法语书评,通过将旧数据集与更新后的数据集聚合在一起,以获得庞大的数据集。
数据源制作人是谁?我使用网络爬虫创建了数据集,通过构建蜘蛛和爬虫来爬取两个法语网站 Babelio 和 Critiques Libres 的数据。
注释注释是初始数据收集的一部分(请参阅上面的脚本)。
Abir ELTAIEF
许可信息本作品根据 CC0: Public Domain 许可。
贡献感谢 @Abirate 创建并添加了该数据集。