NVIDIA发布视频搜索与摘要新型AI蓝图

2024年11月06日由 daydream 发表 242 0

NVIDIA近期推出了一款针对视频搜索与摘要的新型AI蓝图。该蓝图利用先进的视觉语言模型（VLM）、大型语言模型（LLM）以及NVIDIA NIM微服务，能够处理大量实时或存档视频，并从中提取关键信息以生成摘要和进行交互式问答。这些AI代理不仅能快速提供视频摘要，还能回答用户问题，并针对特定事件触发警报。

微信截图_20241106094524

NVIDIA AI蓝图是可定制的参考工作流程，结合了NVIDIA计算机视觉与生成式AI技术，其核心是NVIDIA NIM微服务集合。该集合包括行业标准的API、领域特定的代码、优化的推理引擎以及企业运行时环境。

这些AI技术为多种应用场景带来了可能性。例如，安全系统能够在几分钟内总结数小时的监控录像，交通管理代理能实时响应交通事故。用户无需复杂编码，只需通过自然语言指令即可实现这些功能。仓库管理员可以要求系统识别安全违规行为，城市官员则可以从监控源中请求交通状况更新。

通过采用VLMs（如NVIDIA VILA）和LLMs（如Meta的Llama 3.1 405B），这些AI代理能够理解和处理大量视觉数据。用户可以用自然语言提问视频内容，生成摘要，并为特定场景设置警报。这些视觉代理能够分析实时视频流或视频存档，在各种环境中提供有力且可操作的见解。

在意大利巴勒莫，城市交通管理者已与NVIDIA合作伙伴携手，部署视觉AI代理来监测和改善街道活动。通过理解这些视觉线索，地方当局能够做出数据驱动的决策，从而提升安全性和运营效率。

此外，该蓝图还利用检索增强生成技术，从处理过的视频片段中汇总见解，生成详细摘要，并创建知识图谱以可视化检测事件和对象之间的关系。这种丰富的理解能力使视觉代理能够进行长篇视频分析，实现了从仅检测预定义对象到更高级别视频分析的重大飞跃。

该技术的实际应用广泛涉及多个行业。在基础设施维护中，工作人员可以利用该系统分析航拍录像，检测道路或桥梁的退化情况。体育广播公司可以自动生成比赛亮点，而安全团队则可以快速搜索数小时的视频录像，以找到特定事件。

这款最新的AI蓝图可以在NVIDIA GPU的边缘端、本地或云端部署，为企业提供了极大的灵活性。NVIDIA还与全球系统集成商如Dell Technologies和Lenovo建立了合作伙伴关系。

文章来源：https://www.maginative.com/article/nvidias-new-ai-blueprint-makes-it-easy-to-search-and-summarize-video/

标签：

NVIDIA AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇英伟达市值超越苹果，成为全球最有价值的公司

下一篇谷歌“Big Sleep”AI模型首次发现SQLite安全漏洞

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来