数据集类型:LLaVA Visual Instruct CC3M Pretrain 595K是CC-3M数据集的一个子集,通过更平衡的概念覆盖分布进行了过滤。引用的指令与 BLIP synthetic caption 相关联。它被构建用于视觉指令调整中的特征对齐的预训练阶段。我们的目标是构建大型多模态模型,以实现GPT-4的视觉/语言能力。
数据集日期:LLaVA Visual Instruct CC3M Pretrain 595K于2023年4月创建。
数据集结构:
获取更多信息的论文或资源: https://llava-vl.github.io/
许可证:必须遵守 CC-3M 和 BLIP 的许可证(如果使用它们的合成标题)。
CC-3M数据集可自由用于任何目的,但我们希望能够承认数据源为Google LLC(“Google”)。该数据集按原样提供,不提供任何明示或暗示的保证。对于使用数据集而导致的任何直接或间接的损害,Google不承担任何责任。
如何提出有关模型的问题或意见: https://github.com/haotian-liu/LLaVA/issues
主要预期用途:LLaVA的主要用途是进行大型多模态模型和聊天机器人的研究。
主要预期用户:模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。