Hugging Face推出最大的开放合成数据集Cosmopedia

2024年02月22日 由 samoyed 发表 475 0

Hugging Face发布了Cosmopedia v0.1,它是迄今为止最大的开放合成数据集,包含超过3000万个样本,由Mixtral 7b生成。它包括各种类型的内容,如教科书、博客文章、故事和WikiHow文章,总共包含250亿个token。


8a9ZTW8sC4utjEPIrZegN.png


该数据集旨在通过映射来自Web数据集(如RefinedWeb和RedPajama)的信息来编译全球知识。它包含重要的信息,包括提示、合成内容、种子数据源、token长度、文本格式(例如教科书、博客文章)和目标受众。它提供了关于拆分、分布和创建方法的全面概述,为研究人员提供了对数据集结构和潜在应用的深入了解。


受Phi1.5工作的启发,Cosmopedia的这个初始版本为合成数据领域的研究提供了基础。它作为多样化主题的全面资源,强调了其在后续迭代中进一步增强的潜力。


该数据集被划分为八个拆分,每个拆分都来自不同的种子样本。这些拆分包括web_samples_v1和web_samples_v2,约占数据集的75%,来源于与RefinedWeb相似的内部Web数据集。


斯坦福(Stanford)拆分利用了从stanford.edu抓取的课程大纲,而故事(stories)拆分则结合了来自UltraChat和OpenHermes2.5的生成叙述。此外,WikiHow、OpenStax、KhanAcademy和automathtext的拆分涉及与各自来源相关的提示。


为了方便用户访问数据集,可以使用提供的代码片段加载特定的拆分。对于那些希望减少数据集大小的用户,还提供了一个较小的子集Cosmopedia-100k。此外,一个更大的模型Cosmo-1B已经在Cosmopedia上进行了训练,展示了可扩展性和多功能性。


数据集创建过程涉及一个针对Web样本的主题聚类方法,通过迭代细化提示,并解决污染问题。目标是通过定制提示风格和受众来最大化多样性,从而显著减少重复内容。

文章来源:https://analyticsindiamag.com/huggingface-introduces-cosmopedia-the-largest-open-synthetic-dataset/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消