国内领先的AI技术研发公司智谱·AI正式宣布,其最新研发的多模态大模型CogVLM2已经正式推出。这款新一代模型在关键性能指标上实现了质的飞跃,相较于前代CogVLM,其在处理能力、理解深度以及适用范围上均有了显著提升。CogVLM2不仅支持高达8K的文本长度,更能处理分辨率高达1344*1344的图像,为AI视觉与文本处理领域树立了新的标杆。
据智谱·AI官方透露,CogVLM2在OCRbench基准测试中,性能提升幅度高达32%,而在TextVQA基准测试中,性能提升也达到了21.9%,这充分展示了其在文档图像理解方面的卓越能力。尽管CogVLM2的模型大小达到了19B,但其在各项测试中展现出的性能却接近甚至超越了当前业界知名的GPT-4V模型。
CogVLM2的技术架构经过了精心优化,其视觉编码器拥有50亿参数,而视觉专家模块则拥有高达70亿参数。这种独特的设计使得视觉模态与语言模态能够更加紧密地结合,实现了深度融合。通过精细的参数设置和模块间的交互,CogVLM2能够精确建模视觉与语言序列之间的复杂关系,从而在保持语言处理优势的同时,大幅提升了对视觉信息的处理能力。
CogVLM2在推理时实际激活的参数量仅约120亿,这得益于其独特的多专家模块结构。这种设计不仅显著提高了推理效率,还使得CogVLM2在处理大规模数据时更加稳定、高效。
在模型效果方面,CogVLM2在多模态基准测试中表现出色。无论是在TextVQA、DocVQA、ChartQA等文本与图像理解测试中,还是在OCRbench、MMMU、MMVet、MMBench等复杂推理和跨学科任务测试中,CogVLM2均取得了优异的成绩。其两个模型在多个基准中均达到了最先进性能,同时在其他性能上也能与闭源模型相媲美。
智谱·AI此次发布的CogVLM2模型,无疑将推动AI技术在多模态处理领域的发展。随着技术的不断进步和应用场景的不断拓展,CogVLM2有望为AI技术带来更多可能性和机遇。