近期,随着多家机构预测多模态人工智能市场将在未来几年内以超过35%的年复合增长率迅速扩张,谷歌LLC正积极布局,以期在这一领域占据领先地位。
谷歌云计算部门指出,多模态人工智能——该技术将文本、图像、视频、音频等非结构化数据与生成式人工智能处理相结合——预计将成为2025年五大顶级人工智能趋势之一。
谷歌多模态人工智能战略的核心是BigQuery数据仓库。据谷歌数据、分析与人工智能部门策略与对外产品管理产品主管亚斯敏·艾哈迈德介绍,谷歌正将BigQuery重新定位为能够收集和分析多种数据类型的数据湖仓。
艾哈迈德在接受采访时透露,谷歌估计,企业数据中90%为非结构化数据。通过结合图像和语音识别等技术,以及结构化数据,用于检索增强生成训练,企业能够从以往无法使用的数据中获取有价值的信息。
例如,快餐连锁品牌温迪正测试一款应用,该应用结合BigQuery、谷歌视觉人工智能和Gemini来分析免下车通道的视频录像,从而识别瓶颈问题。通过观察视频图像所得的数据与员工配置和排班信息相结合,以优化人员配置水平。这不仅仅是视频分析,视频数据与运营数据在同一个统一平台上共存。
联合包裹运送服务公司开发了一个仪表盘,该仪表盘利用卡车装载的传感器数据,通过向司机实时发出具体指令,来优化实时配送路线。加拿大贝尔公司则利用人工智能生成的呼叫中心通话文字记录,来训练一个向客服人员提供反馈的教练助理。
多模态人工智能使零售商能够从呼叫中心、社交媒体评论和移动应用反馈等多个渠道收集客户情绪信息,并将其输入生成式人工智能引擎,以发现新的细分市场,用于定向营销活动。这种多模态数据与人工智能的结合,实现了以前无法达到的个性化程度和可扩展性。
Gemini可以直接在BigQuery的数据基础上运行,无需数据传输,从而加快了应用开发速度。艾哈迈德表示,许多组织现在能够在几周内推出试点项目。
目前,大多数早期应用都是内部使用,企业在将生成式人工智能应用于客户方面持谨慎态度。但在防火墙之后,机会并不缺乏。艾哈迈德指出:“唾手可得的机会在于,客户拥有大量长期收集的数据,但他们以前无法利用这些数据。有了BigQuery的多模态数据基础、与视觉人工智能和Gemini的集成,要有所作为就变得容易多了。”