阿里重磅开源Qwen2-VL:能理解超20分钟视频

2024年08月30日 由 daydream 发表 185 0

电商巨头阿里巴巴云旗下的云服务与存储部门,近日正式推出了其最新的视觉语言模型Qwen2-VL。该模型旨在提升视觉理解、视频解析以及多语言文本图像处理能力。


微信截图_20240830111053


在第三方基准测试中,Qwen2-VL展现出了与其他顶尖模型如Meta的Llama 3.1、OpenAI的GPT-4(注意:原文中GPT-4o可能是笔误)、Anthropic的Claude 3 Haiku以及Google的Gemini-1.5 Flash相媲美的出色性能。用户可以通过Hugging Face平台体验该模型的推理功能。





模型亮点:


  • 强大的视觉与视频分析能力:Qwen2-VL不仅能够识别和分析多语言手写内容,还能在静态图像中识别、描述并区分多个物体,甚至能够近实时地分析视频内容,提供概要或反馈,未来或可用于技术支持等实时操作场景。


  • 视频内容理解:该模型能够总结视频内容,回答相关问题,并在实时对话中保持连贯,提供类似个人助理的功能,直接从视频内容中提取见解和信息。


  • 多版本选择:Qwen2-VL提供三种不同参数规模的版本,包括720亿参数的Qwen2-VL-72B、70亿参数的Qwen2-VL-7B和20亿参数的Qwen2-VL-2B。其中,后两个较小规模的版本已在Apache 2.0许可下开源,允许企业用于商业目的。


  • 功能调用与视觉感知:Qwen2-VL支持与其他第三方软件、应用和工具的集成,能够提取并理解来自这些外部源的信息,如航班状态、天气预报或包裹追踪,模拟人类感知世界的方式进行交互。


  • 架构优化:模型采用了多项架构改进,如Naive Dynamic Resolution支持处理不同分辨率的图像,以及Multimodal Rotary Position Embedding(M-ROPE)系统,使模型能够同时捕获和整合文本、图像和视频中的位置信息。


目前,Qwen2-VL模型已可供开发者和研究人员使用,团队鼓励各界探索这些前沿工具的潜力。

文章来源:https://venturebeat.com/ai/alibaba-releases-new-ai-model-qwen2-vl-that-can-analyze-videos-more-than-20-minutes-long/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消