近日,Cohere公司在其搜索模型中增加了多模态嵌入功能,使得用户能够在RAG(检索增强生成)风格的企业搜索中部署图像。这一新功能标志着企业搜索技术的一次重要进步。
多模态嵌入模型Embed 3于去年推出,其核心在于将数据转换为数值表示。在RAG应用中,企业可以将文档转换为嵌入,模型通过比较这些嵌入来获取用户请求的信息。此次升级后的Embed 3能够同时处理图像和文本的嵌入。
据Cohere介绍,新的多模态版本能够在图像和文本中生成嵌入,使得企业能够更全面地利用存储在图像中的大量数据。企业现在可以构建系统,以准确且快速地搜索重要的多模态资产,如复杂报告、产品目录和设计文件,从而提高员工生产力。
值得注意的是,Embed 3中的编码器共享一个统一的潜在空间,这意味着用户可以在数据库中同时包含图像和文本。这一方法避免了传统方法中需要为图像和文本维护单独数据库的局限性,从而提高了混合模态搜索的效果。
Cohere指出,其他模型往往将文本和图像数据聚类到不同的区域,导致搜索结果偏向于文本数据。而Embed 3则更注重数据背后的意义,而不偏向任何特定的模态。此外,Embed 3支持超过100种语言,进一步增强了其适用性。
随着Google等平台推出基于图像的搜索功能,以及ChatGPT等聊天界面逐渐普及,消费者对多模态搜索的熟悉程度日益提高。企业也开始意识到多模态搜索的潜力,并寻求能够提供多模态嵌入选项的模型。
目前,市场上已有一些其他公司和研究机构提供多模态嵌入模型,如Google和OpenAI等。然而,竞争的关键在于谁能提供速度、准确性和安全性都符合企业要求的模型。