NVIDIA近期推出了一款针对视频搜索与摘要的新型AI蓝图。该蓝图利用先进的视觉语言模型(VLM)、大型语言模型(LLM)以及NVIDIA NIM微服务,能够处理大量实时或存档视频,并从中提取关键信息以生成摘要和进行交互式问答。这些AI代理不仅能快速提供视频摘要,还能回答用户问题,并针对特定事件触发警报。
NVIDIA AI蓝图是可定制的参考工作流程,结合了NVIDIA计算机视觉与生成式AI技术,其核心是NVIDIA NIM微服务集合。该集合包括行业标准的API、领域特定的代码、优化的推理引擎以及企业运行时环境。
这些AI技术为多种应用场景带来了可能性。例如,安全系统能够在几分钟内总结数小时的监控录像,交通管理代理能实时响应交通事故。用户无需复杂编码,只需通过自然语言指令即可实现这些功能。仓库管理员可以要求系统识别安全违规行为,城市官员则可以从监控源中请求交通状况更新。
通过采用VLMs(如NVIDIA VILA)和LLMs(如Meta的Llama 3.1 405B),这些AI代理能够理解和处理大量视觉数据。用户可以用自然语言提问视频内容,生成摘要,并为特定场景设置警报。这些视觉代理能够分析实时视频流或视频存档,在各种环境中提供有力且可操作的见解。
在意大利巴勒莫,城市交通管理者已与NVIDIA合作伙伴携手,部署视觉AI代理来监测和改善街道活动。通过理解这些视觉线索,地方当局能够做出数据驱动的决策,从而提升安全性和运营效率。
此外,该蓝图还利用检索增强生成技术,从处理过的视频片段中汇总见解,生成详细摘要,并创建知识图谱以可视化检测事件和对象之间的关系。这种丰富的理解能力使视觉代理能够进行长篇视频分析,实现了从仅检测预定义对象到更高级别视频分析的重大飞跃。
该技术的实际应用广泛涉及多个行业。在基础设施维护中,工作人员可以利用该系统分析航拍录像,检测道路或桥梁的退化情况。体育广播公司可以自动生成比赛亮点,而安全团队则可以快速搜索数小时的视频录像,以找到特定事件。
这款最新的AI蓝图可以在NVIDIA GPU的边缘端、本地或云端部署,为企业提供了极大的灵活性。NVIDIA还与全球系统集成商如Dell Technologies和Lenovo建立了合作伙伴关系。