近日,通义千问再次升级其视觉理解模型Qwen-VL,继Plus版本之后推出Max版本。这款升级版模型在视觉推理能力和中文理解能力上有了显著提升,为用户提供了更加强大的图片识别、答题、创作和写代码等功能。在多个权威测评中,Qwen-VL-Max表现优异,整体性能堪比GPT-4V和Gemini Ultra。
在基础能力方面,Qwen-VL-Max能够准确描述和识别图片信息,并根据图片进行信息推理和扩展创作。此外,该模型还具备视觉定位能力,能够对画面指定区域进行问答。
在视觉推理方面,Qwen-VL-Max表现出色。它能够理解流程图等复杂形式图片,分析复杂图标,并能够看图做题、看图作文以及看图写代码。这些功能使得Qwen-VL-Max在处理多模态数据时具有更高的效率和准确性。
在图像文本处理方面,Qwen-VL-Max的中英文文本识别能力得到了显著提高。它支持百万像素以上的高清分辨率图和极端宽高比的图像,既能够完整复现密集文本,也能够从表格和文档中提取信息。这一功能对于处理文档、报表等实际应用场景非常有价值。
随着多模态成为大模型领域的下一个热点方向,视觉成为了多模态能力中最重要的模态。通义千问的视觉语言模型基于通义千问LLM开发,通过将视觉表示学习模型与LLM对齐,赋予AI理解视觉信息的能力。这为在大语言模型的“心灵”上开了一扇视觉的“窗”,使其能够更好地理解和处理视觉信息。
相比LLM,多模态大模型拥有更大的应用想象力。例如,研究者正在探索如何将多模态大模型与自动驾驶场景结合,为“完全自动驾驶”找到新的技术路径。此外,将多模态模型部署到手机、机器人、智能音箱等端侧设备,让智能设备自动理解物理世界的信息也是一项有前景的应用。同时,基于多模态模型开发应用以辅助视力障碍群体的日常生活也具有重要意义。
为了让用户更好地体验Qwen-VL-Max的能力,通义千问限时免费开放Max版本模型。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。
总的来说,通义千问推出的Qwen-VL-Max视觉理解模型进一步提升了AI在视觉推理和中文理解方面的能力。随着多模态大模型的不断发展,我们有理由相信AI将在更多领域展现出强大的应用潜力。