数据集:

tiiuae/falcon-refinedweb

英文

? Falcon RefinedWeb

Falcon RefinedWeb是一个由 TII 创建并在ODC-By 1.0许可下发布的英文网络数据集。

有关详细信息,请参阅? paper on arXiv

RefinedWeb通过对CommonCrawl进行严格的过滤和大规模的去重来构建;我们发现在RefinedWeb上训练的模型的性能与在精选数据集上训练的模型相当,甚至更好,而且只依赖于网络数据。

RefinedWeb还支持“多模态”,它包含在处理后的样本中的图像链接和图片alt文本。

根据您使用的标记器,此公共提取应包含500-650GT,并且可以通过选择的精选语料库进行增强。此公共提取的下载大小约为500GB,解压后需要2.8TB的本地存储空间。

from datasets import load_dataset
rw = load_dataset("tiiuae/falcon-refinedweb")

RefinedWeb是我们训练 Falcon LLM 模型的主要数据集:

  • 它与精选语料库一起用于训练 7B / 40B 两个开源最先进的模型。
  • 还用于训练Falcon-RW- 1B / 7B 两个仅使用3500亿个RefinedWeb令牌训练的模型,以证明其与精选语料库相比的质量。

Falcon RefinedWeb数据集卡片

数据集概述

Falcon RefinedWeb旨在用作大规模语言模型的预训练英文数据集。它可以单独使用,也可以与精选来源(例如Wikipedia、StackOverflow)合并使用。

它是基于CommonCrawl构建的,利用严格的过滤和广泛的去重。

支持的任务和排行榜

RefinedWeb旨在作为大规模语言模型的预训练数据集。从实践者的角度来看,他们可以利用它进行上游评估并进行验证损失,但我们不提供任何规范拆分。

语言

RefinedWeb主要包含英语。

数据集结构

数据实例

每个数据实例对应于一个已爬取、处理和与所有其他实例进行了去重处理的单个网页。

此RefinedWeb的公共提取包含约10亿个实例(968M个单独的网页),总共2.8TB的干净文本数据。

数据字段

  • 内容:页面中包含的经过处理和清理的文本;
  • url:爬取样本的网页的URL;
  • 时间戳:由CommonCrawl爬取网页的时间戳;
  • dump:样本所属的CommonCrawl dump;
  • segment:样本所属的CommonCrawl segment;
  • image_urls:内容中找到的所有图片的类型为[image_url,image_alt_text]的元素列表。

数据拆分

我们不提供RefinedWeb的任何规范拆分。

数据集创建

策划理由

Falcon RefinedWeb是基于 CommonCrawl 构建的,使用了Macrodata Refinement Pipeline,该流程结合了内容提取、过滤启发式和去重。

在设计RefinedWeb时,我们遵循以下原则:

  • (1)首要考虑规模。我们打算MDR生成用于训练400-2000B参数模型的数据集,因此需要数万亿个令牌 (Hoffmann et al., 2022) 。针对仅英语的RefinedWeb,我们的目标是3-6万亿个令牌的大小。具体而言,我们避免任何劳动密集型的人工筛选过程,专注于CommonCrawl而不是不同的单一领域来源。
  • (2)严格去重。受到 Lee et al., 2021 的工作启发,该工作证明了对大规模语言模型的重要性,我们实现了严格的去重流程。我们结合了精确和模糊去重,并使用严格的设置,导致去重率远高于其他数据集报告的去重率。
  • (3)中性过滤。为了避免引入进一步的不希望的模型偏差,我们避免在语言识别( Dodge et al., 2021 Welbl et al., 2021 )以外使用基于ML的筛选。我们坚持使用简单的规则和启发式方法,并仅使用基于URL的过滤来处理成人内容。

在开发RefinedWeb的过程中,我们通过测量在开发版本数据集上训练的模型的零-shot性能来迭代。我们的主要目标是最大化所获得的性能,弥合基于网络数据与精选数据之间的差距。我们还手动审查样本,以识别潜在的过滤改进。

数据源

RefinedWeb是从 CommonCrawl 的dump构建的。这些dump是从爬行的公开可用网页构建的。

数据收集和预处理

我们使用我们的Macrodata Refinement Pipeline对数据进行了广泛的预处理和清理。

我们首先使用屏蔽列表和评分系统过滤URL以删除成人内容,然后使用trafilatura从页面中提取内容,并使用来自CCNet的fastText分类器进行语言识别( Wenzek et al., 2019 )。在这个预处理阶段之后,我们使用来自MassiveWeb( Rae et al., 2021 )和我们自己的逐行更正对数据进行过滤。

最后,我们进行广泛的去重,删除跨dump重新访问的URL,并进行后续的模糊和精确子字符串去重。

注释

我们为源url、爬取时间戳、原始CommonCrawl dump和找到文档的segment、页面中的image_urls提供了自动收集的注释。

个人和敏感信息

由于RefinedWeb是基于公开可用的网页构建的,因此可能包含敏感信息,例如电子邮件、电话号码或IP地址。我们相信去重可能有助于减少数据集中个人身份信息的普遍性,但使用RefinedWeb的从业者应当谨慎对待。

使用数据的注意事项

数据集的社会影响

通过开源发布Falcon RefinedWeb,我们的目标是增加对高质量网络数据的访问,这些数据通常由模型开发人员保密。我们相信这一发布将进一步提高可访问性和高性能大型语言模型的传播。

对偏见的讨论

因为互联网上存在有害或有偏见的数据,所以我们的数据集很可能包含此类内容。值得注意的是,通过使用Perspective API,我们估计数据集中有害内容的普遍性与The Pile相似。

其他已知限制

尽管我们已尽力过滤不符合自然语言标准的内容并进行去重处理,但我们的流程仍可能使错误或重复的文档通过。

其他信息

许可信息

该公共提取可在 ODC-By 1.0 许可下使用;用户还应遵守 CommonCrawl ToU

引用信息

@article{refinedweb,
  title={The {R}efined{W}eb dataset for {F}alcon {LLM}: outperforming curated corpora with web data, and web data only},
  author={Guilherme Penedo and Quentin Malartic and Daniel Hesslow and Ruxandra Cojocaru and Alessandro Cappelli and Hamza Alobeidli and Baptiste Pannier and Ebtesam Almazrouei and Julien Launay},
  journal={arXiv preprint arXiv:2306.01116},
  eprint={2306.01116},
  eprinttype = {arXiv},
  url={https://arxiv.org/abs/2306.01116},
  year={2023}
}

Opt-out请求

RefinedWeb基于 CommonCrawl 。他们的爬虫可以遵守robots.txt中的Opt-out请求,详情请参阅 CC FAQ

要将文档从RefinedWeb中移除,请发送消息至falconllm@tii.ae。

联系方式

falconllm@tii.ae