Hugging Face推出最大的开放合成数据集Cosmopedia

2024年02月22日由 samoyed 发表 891 0

Hugging Face发布了Cosmopedia v0.1，它是迄今为止最大的开放合成数据集，包含超过3000万个样本，由Mixtral 7b生成。它包括各种类型的内容，如教科书、博客文章、故事和WikiHow文章，总共包含250亿个token。

该数据集旨在通过映射来自Web数据集（如RefinedWeb和RedPajama）的信息来编译全球知识。它包含重要的信息，包括提示、合成内容、种子数据源、token长度、文本格式（例如教科书、博客文章）和目标受众。它提供了关于拆分、分布和创建方法的全面概述，为研究人员提供了对数据集结构和潜在应用的深入了解。

受Phi1.5工作的启发，Cosmopedia的这个初始版本为合成数据领域的研究提供了基础。它作为多样化主题的全面资源，强调了其在后续迭代中进一步增强的潜力。

该数据集被划分为八个拆分，每个拆分都来自不同的种子样本。这些拆分包括web_samples_v1和web_samples_v2，约占数据集的75%，来源于与RefinedWeb相似的内部Web数据集。

斯坦福（Stanford）拆分利用了从stanford.edu抓取的课程大纲，而故事（stories）拆分则结合了来自UltraChat和OpenHermes2.5的生成叙述。此外，WikiHow、OpenStax、KhanAcademy和automathtext的拆分涉及与各自来源相关的提示。

为了方便用户访问数据集，可以使用提供的代码片段加载特定的拆分。对于那些希望减少数据集大小的用户，还提供了一个较小的子集Cosmopedia-100k。此外，一个更大的模型Cosmo-1B已经在Cosmopedia上进行了训练，展示了可扩展性和多功能性。

数据集创建过程涉及一个针对Web样本的主题聚类方法，通过迭代细化提示，并解决污染问题。目标是通过定制提示风格和受众来最大化多样性，从而显著减少重复内容。

文章来源：https://analyticsindiamag.com/huggingface-introduces-cosmopedia-the-largest-open-synthetic-dataset/

标签：

Hugging Face

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Copilot Pro体验：Office应用内AI功能全解析

下一篇腾讯会议AI小助手官宣正式上线！重塑会议效率的新工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来