数据集:

liuhaotian/LLaVA-CC3M-Pretrain-595K

语言:

en

许可:

other
英文

LLaVA Visual Instruct CC3M 595K Pretrain数据集详情

数据集详情

数据集类型:LLaVA Visual Instruct CC3M Pretrain 595K是CC-3M数据集的一个子集,通过更平衡的概念覆盖分布进行了过滤。引用的指令与 BLIP synthetic caption 相关联。它被构建用于视觉指令调整中的特征对齐的预训练阶段。我们的目标是构建大型多模态模型,以实现GPT-4的视觉/语言能力。

数据集日期:LLaVA Visual Instruct CC3M Pretrain 595K于2023年4月创建。

数据集结构:

  • chat.json包含来自图像-标题对的多模态合成对话,通过添加随机选择的指令,如:“描述这张图片”。它用于LLaVA的预训练。我们使用原始的CC-3M标题作为默认答案。
  • metadata.json包含CC-3M中图像索引的元数据、图像文件名、图像URL、原始CC-3M标题和合成的BLIP标题。请注意,本版本中约10%的样本尚未与BLIP标题相关联。
  • images.zip包含来自CC-3M筛选子集的所有原始图像。重要通知:根据社区的要求,原始CC-3M数据集中约15%的图像不再可用,所以我们上传了images.zip以更好地在研究社区中复现我们的工作。它不应用于任何其他目的。这些图像的使用必须符合CC-3M许可。原始CC-3M数据集的所有者或相关图片的所有者请求时可能会将此内容删除。

获取更多信息的论文或资源: https://llava-vl.github.io/

许可证:必须遵守 CC-3M BLIP 的许可证(如果使用它们的合成标题)。

CC-3M数据集可自由用于任何目的,但我们希望能够承认数据源为Google LLC(“Google”)。该数据集按原样提供,不提供任何明示或暗示的保证。对于使用数据集而导致的任何直接或间接的损害,Google不承担任何责任。

如何提出有关模型的问题或意见: https://github.com/haotian-liu/LLaVA/issues

预期用途

主要预期用途:LLaVA的主要用途是进行大型多模态模型和聊天机器人的研究。

主要预期用户:模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。