想象一下,一款监控摄像头不仅能够捕捉视频画面,还能实时理解正在发生的事情,准确区分日常活动与潜在危险行为。这一未来愿景正由弗吉尼亚大学工程与应用科学学院的研究人员通过他们的最新成果——语义和运动感知时空变换网络(SMAST)逐步变为现实。SMAST是一款由人工智能驱动的智能视频分析器,它以前所未有的精度和智能检测视频中的人类行为。
SMAST系统的出现,有望在多个领域带来广泛的社会效益。从增强监控系统、提高公共安全,到促进医疗保健中的高级运动跟踪,再到改进自动驾驶汽车在复杂环境中的导航能力,SMAST都展现出巨大的应用潜力。
电气和计算机工程系的教授兼主任Scott T. Acton,作为该项目的首席研究员,表示:“这项AI技术为实时动作检测在一些最具挑战性的环境中开辟了大门。这是一种能够帮助防止事故、改善诊断甚至挽救生命的进步。”
那么,SMAST是如何实现这一突破的呢?其核心在于人工智能的支持,以及两个关键组件的协同作用。第一个是多特征选择性注意模型,它帮助AI聚焦于场景中最重要的部分,如人或物体,同时忽略不必要的细节。这使得SMAST在识别复杂行为时更加准确,例如能够识别出某人在投掷球,而不仅仅是移动手臂。
第二个关键组件是运动感知2D位置编码算法,它帮助AI追踪事物随时间的移动。这一算法使得SMAST能够记住视频中的动作,并理解它们之间的关系,从而准确识别复杂动作。通过整合这两个特性,SMAST能够在实时情况下准确识别复杂的人类行为,使其在高风险场景中如监控、医疗诊断或自动驾驶中更加有效。
SMAST的创新设计重新定义了机器检测和解释人类动作的方式。与当前系统在处理混乱、未经编辑的连续视频片段时难以把握事件上下文相比,SMAST能够以显著的精度捕捉人与物体之间的动态关系,并通过可以从数据中学习和适应的AI组件来实现这一目标。
这一技术飞跃意味着AI系统可以识别诸如跑步者穿过街道、医生进行精确手术,甚至是拥挤空间中的安全威胁等复杂动作。SMAST在多个关键学术基准上已超越顶级解决方案,为准确性和效率设定了新标准。
参与该项目研究的博士后研究员Matthew Korban表示:“社会影响可能是巨大的。我们很高兴看到这种AI技术如何可能改变行业,使基于视频的系统更加智能,并能够实时理解。”
这项研究基于发表在IEEE模式分析和机器智能汇刊的文章《用于动作检测的语义和运动感知时空变换网络》的工作,论文作者是来自弗吉尼亚大学的Matthew Korban、Peter Youngs和Scott T. Acton。