智谱·AI发布新一代多模态大模型CogVLM2

2024年05月21日由 neo 发表 701 0

国内领先的AI技术研发公司智谱·AI正式宣布，其最新研发的多模态大模型CogVLM2已经正式推出。这款新一代模型在关键性能指标上实现了质的飞跃，相较于前代CogVLM，其在处理能力、理解深度以及适用范围上均有了显著提升。CogVLM2不仅支持高达8K的文本长度，更能处理分辨率高达1344*1344的图像，为AI视觉与文本处理领域树立了新的标杆。

6385187728541264883470976

据智谱·AI官方透露，CogVLM2在OCRbench基准测试中，性能提升幅度高达32%，而在TextVQA基准测试中，性能提升也达到了21.9%，这充分展示了其在文档图像理解方面的卓越能力。尽管CogVLM2的模型大小达到了19B，但其在各项测试中展现出的性能却接近甚至超越了当前业界知名的GPT-4V模型。

CogVLM2的技术架构经过了精心优化，其视觉编码器拥有50亿参数，而视觉专家模块则拥有高达70亿参数。这种独特的设计使得视觉模态与语言模态能够更加紧密地结合，实现了深度融合。通过精细的参数设置和模块间的交互，CogVLM2能够精确建模视觉与语言序列之间的复杂关系，从而在保持语言处理优势的同时，大幅提升了对视觉信息的处理能力。

CogVLM2在推理时实际激活的参数量仅约120亿，这得益于其独特的多专家模块结构。这种设计不仅显著提高了推理效率，还使得CogVLM2在处理大规模数据时更加稳定、高效。

在模型效果方面，CogVLM2在多模态基准测试中表现出色。无论是在TextVQA、DocVQA、ChartQA等文本与图像理解测试中，还是在OCRbench、MMMU、MMVet、MMBench等复杂推理和跨学科任务测试中，CogVLM2均取得了优异的成绩。其两个模型在多个基准中均达到了最先进性能，同时在其他性能上也能与闭源模型相媲美。

智谱·AI此次发布的CogVLM2模型，无疑将推动AI技术在多模态处理领域的发展。随着技术的不断进步和应用场景的不断拓展，CogVLM2有望为AI技术带来更多可能性和机遇。

文章来源：https://www.chinaz.com/2024/0521/1617930.shtml

标签：

智谱AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI调整战略以应对安全高管离职后的挑战

下一篇微软Copilot助手升级GPT-4o，开启智能协作新纪元

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来