人工智能初创公司Cohere Inc.今天宣布推出Embed 4,这是其最新的AI模型,专为搜索和检索而设计,适用于助手和代理等AI应用。
企业业务高度依赖于检索增强生成,这是一种技术,允许生成式AI模型实时检索并整合最新、准确的信息,以便大型语言模型能够以最佳数据响应用户查询。
嵌入模型,如Embed,将文档中的数据转化为称为向量的数学表示,用于表示信息的动态、多方面的上下文。在Embed 4的应用中,这可以涵盖从文本文档或图像到表格、图形、代码和图表的各种内容。
Cohere表示,新模型具有极大的上下文长度——最多128,000个标记,相当于约200页文档——这使其能够处理冗长的年度财务报告、产品手册或详细的法律合同。它还支持多语言,涵盖超过100种语言,除了英语,还包括阿拉伯语、日语、韩语和法语等关键商业语言。
Cohere表示,Embed 4使组织能够搜索其非结构化文档,其中大部分重要数据都存在。其独特之处在于能够在统一的向量中生成复杂混合模态文档的高质量表示。
这家AI初创公司表示,新模型在金融、医疗和制造等受监管行业中表现出色,具备这些行业的领域特定理解能力。这些能力包括搜索投资者演示、年度财务报告、医疗记录、程序图表、产品规格文档、维修指南和供应链文档的能力。
Cohere还指出,Embed 4能够处理模糊图像和方向不佳的文档,适应嘈杂的现实世界数据。公司表示,该模型经过了大量扫描文档、手写和其他受损文档的训练。这些是许多企业在日常多模态数据预处理过程中会遇到的复杂数据类型,属于手动流程的一部分。
Agora,一个为35,000家在线商店提供服务的AI驱动搜索引擎,也是Cohere的客户,使用该模型来协助其业务,表示能够利用其先进的多模态嵌入功能构建更好的搜索。
“电子商务数据是复杂的,包含图像和多方面的文本描述,”创始人Param Jaggi说。“能够在统一的嵌入中表示我们的产品使我们的搜索更快,我们的内部工具更高效。”
Embed的能力对于准确的搜索和检索至关重要,这为生成式AI模型提供动力,如Cohere的Command A,这是公司上个月发布的低成本模型。像Command A这样的模型为对话助手和AI代理提供动力,但严重依赖于搜索引擎,这些引擎连接到安全的专有公司信息,以便为用户问题提供相关信息。这对于加快响应速度、提高准确性和减少幻觉是必要的。
Cohere表示,新Embed 4模型已集成到North,公司的安全AI代理生产力平台中,在其Compass产品中提供语义搜索功能。
Embed 4模型也从今天开始在Microsoft Azure AI Foundry、Amazon SageMaker上以及用于私人部署中可用。