数据集:
tiiuae/falcon-refinedweb
Falcon RefinedWeb是一个由 TII 创建并在ODC-By 1.0许可下发布的英文网络数据集。
有关详细信息,请参阅? paper on arXiv 。
RefinedWeb通过对CommonCrawl进行严格的过滤和大规模的去重来构建;我们发现在RefinedWeb上训练的模型的性能与在精选数据集上训练的模型相当,甚至更好,而且只依赖于网络数据。
RefinedWeb还支持“多模态”,它包含在处理后的样本中的图像链接和图片alt文本。
根据您使用的标记器,此公共提取应包含500-650GT,并且可以通过选择的精选语料库进行增强。此公共提取的下载大小约为500GB,解压后需要2.8TB的本地存储空间。
from datasets import load_dataset rw = load_dataset("tiiuae/falcon-refinedweb")
RefinedWeb是我们训练 Falcon LLM 模型的主要数据集:
Falcon RefinedWeb旨在用作大规模语言模型的预训练英文数据集。它可以单独使用,也可以与精选来源(例如Wikipedia、StackOverflow)合并使用。
它是基于CommonCrawl构建的,利用严格的过滤和广泛的去重。
RefinedWeb旨在作为大规模语言模型的预训练数据集。从实践者的角度来看,他们可以利用它进行上游评估并进行验证损失,但我们不提供任何规范拆分。
RefinedWeb主要包含英语。
每个数据实例对应于一个已爬取、处理和与所有其他实例进行了去重处理的单个网页。
此RefinedWeb的公共提取包含约10亿个实例(968M个单独的网页),总共2.8TB的干净文本数据。
我们不提供RefinedWeb的任何规范拆分。
Falcon RefinedWeb是基于 CommonCrawl 构建的,使用了Macrodata Refinement Pipeline,该流程结合了内容提取、过滤启发式和去重。
在设计RefinedWeb时,我们遵循以下原则:
在开发RefinedWeb的过程中,我们通过测量在开发版本数据集上训练的模型的零-shot性能来迭代。我们的主要目标是最大化所获得的性能,弥合基于网络数据与精选数据之间的差距。我们还手动审查样本,以识别潜在的过滤改进。
RefinedWeb是从 CommonCrawl 的dump构建的。这些dump是从爬行的公开可用网页构建的。
我们使用我们的Macrodata Refinement Pipeline对数据进行了广泛的预处理和清理。
我们首先使用屏蔽列表和评分系统过滤URL以删除成人内容,然后使用trafilatura从页面中提取内容,并使用来自CCNet的fastText分类器进行语言识别( Wenzek et al., 2019 )。在这个预处理阶段之后,我们使用来自MassiveWeb( Rae et al., 2021 )和我们自己的逐行更正对数据进行过滤。
最后,我们进行广泛的去重,删除跨dump重新访问的URL,并进行后续的模糊和精确子字符串去重。
我们为源url、爬取时间戳、原始CommonCrawl dump和找到文档的segment、页面中的image_urls提供了自动收集的注释。
由于RefinedWeb是基于公开可用的网页构建的,因此可能包含敏感信息,例如电子邮件、电话号码或IP地址。我们相信去重可能有助于减少数据集中个人身份信息的普遍性,但使用RefinedWeb的从业者应当谨慎对待。
通过开源发布Falcon RefinedWeb,我们的目标是增加对高质量网络数据的访问,这些数据通常由模型开发人员保密。我们相信这一发布将进一步提高可访问性和高性能大型语言模型的传播。
因为互联网上存在有害或有偏见的数据,所以我们的数据集很可能包含此类内容。值得注意的是,通过使用Perspective API,我们估计数据集中有害内容的普遍性与The Pile相似。
尽管我们已尽力过滤不符合自然语言标准的内容并进行去重处理,但我们的流程仍可能使错误或重复的文档通过。
该公共提取可在 ODC-By 1.0 许可下使用;用户还应遵守 CommonCrawl ToU 。
@article{refinedweb, title={The {R}efined{W}eb dataset for {F}alcon {LLM}: outperforming curated corpora with web data, and web data only}, author={Guilherme Penedo and Quentin Malartic and Daniel Hesslow and Ruxandra Cojocaru and Alessandro Cappelli and Hamza Alobeidli and Baptiste Pannier and Ebtesam Almazrouei and Julien Launay}, journal={arXiv preprint arXiv:2306.01116}, eprint={2306.01116}, eprinttype = {arXiv}, url={https://arxiv.org/abs/2306.01116}, year={2023} }
RefinedWeb基于 CommonCrawl 。他们的爬虫可以遵守robots.txt中的Opt-out请求,详情请参阅 CC FAQ 。
要将文档从RefinedWeb中移除,请发送消息至falconllm@tii.ae。
falconllm@tii.ae