Cohere发布了Embed v3,它是其最新的、最强大的文本嵌入模型,它在可信的基准测试上达到了最先进的性能。Embed v3在语义搜索准确度方面显示出显著的改进,特别是对于真实的、嘈杂的数据集。
Embed v3是一个在文本嵌入模型领域表现出色的模型,它在诸如Massive Text Embedding Benchmark (MTEB)和Benchmark for Evaluating Information Retrieval (BEIR)等知名的基准测试中取得了令人印象深刻的成绩。这个模型不仅在MTEB上超过了90多个模型,而且在BEIR上也展现了出色的零样本密集检索能力。
文本嵌入是一种能够捕捉语义含义的文本向量表示。它们可以通过基于向量相似度的比较,实现强大的应用,如语义搜索。
然而,在处理质量不一的嘈杂的真实世界数据时,始终检索出最相关的结果仍然是一个挑战。文档可能与搜索查询的主题匹配,但却包含很少有用的信息。
Embed v3通过在向量空间内评估内容质量和相关性等增强功能来解决这个问题。这使得能够根据主题匹配和信息质量来正确地对文档进行排序。
评估显示,这些改进为语义搜索应用带来了显著的收益。例如,在基于嘈杂的CORD-19网络爬取的TREC-COVID数据集上,Embed v3比OpenAI的ada-002等基准模型实现了更高的搜索准确度,正确地找出了包含最相关细节的文档。
它还擅长处理需要从多个文档中综合细节的“多跳”问题,这对于检索增强型生成式AI应用至关重要。在HotpotQA上的测试显示,它在检索出所有必要的上下文来回答复杂查询方面表现得更好。
Cohere表示,Embed v3的训练方法是针对压缩感知进行优化的,能够有效地处理数十亿个嵌入,而不需要过多的基础设施成本。它引入了一个新的必选参数:input_type。这确保了嵌入模型针对特定任务进行优化,如search_document, search_query, classification, 和 clustering,提高了结果的质量和相关性。
Embed v3提供了英语和支持100多种语言的多语言版本。多语言模型支持100多种语言,可以用于同一语言内的搜索(例如,在法语文档上使用法语查询进行搜索)和跨语言搜索(例如,在芬兰语文档上使用中文查询进行搜索)。
Cohere的Embed v3代表了文本嵌入领域的一个重大进步。它无与伦比的性能、对嘈杂数据的鲁棒性和高效运行使其成为开发者改善搜索应用和RAG系统的有价值工具。