多模态是一个相对较新的术语,用于描述一个极其古老的现象:自从人类出现以来,人们是如何了解世界的。个体通过他们的感官从无数来源接收信息,包括视觉、听觉和触觉。人类的大脑将这些不同的数据模式组合成一个高度细致、全面的现实图景。
“人与人之间的交流是多模态的,”Jina AI首席执行官韩霄(Han Xiao)说。“他们使用文本、语音、情绪、表情,有时还有照片。”这只是几种明显的分享信息的方式。因此,他补充道,“可以非常肯定地假设,未来人与机器之间的交流也将是多模态的。”
一个从多个角度看待世界的技术
我们尚未达到这个水平。在这方面最先进的发展出现在新兴的多模态AI领域。问题不在于缺乏愿景。爱丁堡大学的教授兼其综合人工智能实验室主任Mirella Lapata表示,虽然能够在不同模态之间进行翻译的技术显然很有价值,但“执行起来比单模态AI要复杂得多”。
在实践中,生成式AI工具在构建大型数据模型(即组织大量信息的复杂神经网络)时,会针对不同类型的数据使用不同的策略。例如,那些依赖于文本来源的模型会将单个标记(通常是单词)分开。每个标记都被分配一个“嵌入”或“向量”:一个数值矩阵,代表与其他标记相比,该标记是如何以及在哪里被使用的。整体上,这些向量创建了一个标记意义的数学表示。另一方面,图像模型可能会使用像素作为其嵌入的标记,而音频模型则可能会使用声音频率。
一个多模态AI模型通常依赖于几个单模态模型。正如AI咨询公司Latent Space的创始人Henry Ajder所说,这涉及“几乎将”各种贡献模型“串联起来”。这样做涉及各种技术来对齐每个单模态模型的元素,这个过程被称为融合。例如,单词“树”、一张橡树的图片,以及树叶沙沙作响的音频,可能会以这种方式进行融合。这使得模型能够创建对现实的多方面描述。