谷歌宣布推出Gecko,这是一款紧凑且通用的文本嵌入模型,它拥有大型语言模型(LLM)的丰富世界知识。
Gecko是通过大型语言模型(LLM)生成的合成数据集FRet进行训练的,该数据集包含LLM排名的正面和负面数据。
文本嵌入模型将自然语言表示为密集向量,在嵌入空间中使语义相似的文本彼此靠近。简单来说,文本嵌入模型就像是计算机的翻译者。它们接收文本,并将其转换为计算机可以理解的数字。
这些数字表示,也被称为嵌入,捕获了文本中单词或句子的语义信息。通过让计算机处理自然语言,这些嵌入被用于执行各种下游任务,包括文档检索、句子相似性、分类和聚类。
与为每个下游任务构建单独的嵌入模型不同,现在有一种趋势是创建一个可以支持许多任务的单一模型。然而,这种通用文本嵌入模型需要大量的训练数据来全面覆盖所需的领域和技能。这正是谷歌在这项研究中利用LLM的原因。
“LLM包含各种领域的丰富知识,并且是出色的少量样本学习者”。谷歌的方法利用知识蒸馏的见解,创建了一个由LLM驱动的嵌入模型Gecko,该模型分为两步。
“我们的两步蒸馏过程首先从LLM生成多样化的合成配对数据开始。接下来,我们进一步精炼数据质量,通过为每个查询检索一组候选段落,并使用相同的LLM重新标记正面和难以区分的负面段落。”
基本上,研究团队从一个庞大的未标记段落语料库开始,使用少量样本提示的LLM为每个段落生成相关的任务和查询。然后,他们使用预训练的嵌入模型将任务和查询连接起来进行嵌入,以获得最近的邻居段落。接着,他们使用LLM对段落进行重新排序,并根据LLM得分获得正面和负面段落。这种方法帮助Gecko实现了强大的检索性能。
研究表明,仅在包含LLM排名的正面和负面数据的LLM生成合成数据集FRet上训练Gecko,就可以带来显著的改进,为大规模文本嵌入基准(MTEB)上的零样本嵌入模型设定了一个强大的基线。
“通过将这种LLM生成和LLM排名的数据与人工标注的数据相结合,我们的模型Gecko-1B(具有768维嵌入)在流行的MTEB基准测试中,在具有兼容嵌入维度和模型大小的模型中表现最佳。它获得了66.31的平均分数,与比它大7倍的模型和维度高出5倍的嵌入模型竞争。” 研究中提到了这一点。