达摩院推出了一款名为VideoLLaMA 3的视频-语言模型,该模型以图像为中心进行构建,并在视频理解方面取得了显著成果。VideoLLaMA 3的参数量仅为7B,但在通用视频理解、时间推理和长视频理解等核心评估维度上均表现出色,超越了多数基线模型。
VideoLLaMA 3的设计理念贯穿于整个模型架构和训练过程。它首先通过高质量的图像文本数据为视频理解打下坚实基础,即使仅使用3M的视频文本数据,也实现了对同参数量开源模型的全面超越。此外,一个适用于端侧的2B版本的VideoLLaMA 3在图像理解方面也展现出了出色的性能,在多个基准测试中表现优异。
在HuggingFace平台上,VideoLLaMA 3已经提供了图像和视频理解的演示。例如,对于一幅《蒙娜丽莎》的画作,VideoLLaMA 3能够准确地讨论其历史影响和艺术界的意义。而在视频理解的演示中,VideoLLaMA 3也能精准地指出视频中的不寻常之处,如熊在桌子上吃寿司这一场景。
VideoLLaMA 3的成功主要得益于其以图像为中心的训练范式。这一范式包括视觉编码器适配、视觉语言对齐、多任务微调和视频微调四个关键内容。通过让视觉编码器处理动态分辨率图像,利用丰富图像文本数据提升多模态理解能力,以及结合图像文本问答数据和视频字幕数据进行微调,VideoLLaMA 3实现了对视频内容的深入理解。
此外,VideoLLaMA 3的框架设计也颇具创新。它采用了任意分辨率视觉标记化(AVT)方法,突破了传统固定分辨率的限制,使视觉编码器能够处理不同分辨率的图像和视频。同时,差分帧剪枝器(DiffFP)的引入也有效解决了视频数据冗余的问题,提高了视频处理的效率。
在数据方面,VideoLLaMA 3的训练依赖于高质量的数据集。达摩院团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并通过长宽比过滤、美学评分过滤、文本-图像相似度计算、视觉特征聚类和图像重新标注等步骤,确保了数据的质量和多样性。这些高质量的数据为VideoLLaMA 3的训练提供了坚实的基础。