Hugging Face发布了Cosmopedia v0.1,它是迄今为止最大的开放合成数据集,包含超过3000万个样本,由Mixtral 7b生成。它包括各种类型的内容,如教科书、博客文章、故事和WikiHow文章,总共包含250亿个token。
该数据集旨在通过映射来自Web数据集(如RefinedWeb和RedPajama)的信息来编译全球知识。它包含重要的信息,包括提示、合成内容、种子数据源、token长度、文本格式(例如教科书、博客文章)和目标受众。它提供了关于拆分、分布和创建方法的全面概述,为研究人员提供了对数据集结构和潜在应用的深入了解。
受Phi1.5工作的启发,Cosmopedia的这个初始版本为合成数据领域的研究提供了基础。它作为多样化主题的全面资源,强调了其在后续迭代中进一步增强的潜力。
该数据集被划分为八个拆分,每个拆分都来自不同的种子样本。这些拆分包括web_samples_v1和web_samples_v2,约占数据集的75%,来源于与RefinedWeb相似的内部Web数据集。
斯坦福(Stanford)拆分利用了从stanford.edu抓取的课程大纲,而故事(stories)拆分则结合了来自UltraChat和OpenHermes2.5的生成叙述。此外,WikiHow、OpenStax、KhanAcademy和automathtext的拆分涉及与各自来源相关的提示。
为了方便用户访问数据集,可以使用提供的代码片段加载特定的拆分。对于那些希望减少数据集大小的用户,还提供了一个较小的子集Cosmopedia-100k。此外,一个更大的模型Cosmo-1B已经在Cosmopedia上进行了训练,展示了可扩展性和多功能性。
数据集创建过程涉及一个针对Web样本的主题聚类方法,通过迭代细化提示,并解决污染问题。目标是通过定制提示风格和受众来最大化多样性,从而显著减少重复内容。