LLaVA Visual Instruct CC3M 595K Pretrain数据集详情

数据集详情

数据集类型：LLaVA Visual Instruct CC3M Pretrain 595K是CC-3M数据集的一个子集，通过更平衡的概念覆盖分布进行了过滤。引用的指令与 BLIP synthetic caption 相关联。它被构建用于视觉指令调整中的特征对齐的预训练阶段。我们的目标是构建大型多模态模型，以实现GPT-4的视觉/语言能力。

数据集日期：LLaVA Visual Instruct CC3M Pretrain 595K于2023年4月创建。

数据集结构：

chat.json包含来自图像-标题对的多模态合成对话，通过添加随机选择的指令，如：“描述这张图片”。它用于LLaVA的预训练。我们使用原始的CC-3M标题作为默认答案。
metadata.json包含CC-3M中图像索引的元数据、图像文件名、图像URL、原始CC-3M标题和合成的BLIP标题。请注意，本版本中约10%的样本尚未与BLIP标题相关联。
images.zip包含来自CC-3M筛选子集的所有原始图像。重要通知：根据社区的要求，原始CC-3M数据集中约15%的图像不再可用，所以我们上传了images.zip以更好地在研究社区中复现我们的工作。它不应用于任何其他目的。这些图像的使用必须符合CC-3M许可。原始CC-3M数据集的所有者或相关图片的所有者请求时可能会将此内容删除。

获取更多信息的论文或资源： https://llava-vl.github.io/

许可证：必须遵守 CC-3M 和 BLIP 的许可证（如果使用它们的合成标题）。

CC-3M数据集可自由用于任何目的，但我们希望能够承认数据源为Google LLC（“Google”）。该数据集按原样提供，不提供任何明示或暗示的保证。对于使用数据集而导致的任何直接或间接的损害，Google不承担任何责任。

如何提出有关模型的问题或意见： https://github.com/haotian-liu/LLaVA/issues

预期用途

主要预期用途：LLaVA的主要用途是进行大型多模态模型和聊天机器人的研究。

主要预期用户：模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

作者:

liuhaotian

数据集大小:

6.4 GB