谷歌最近发布的Gemini 1.5具有1M的上下文长度窗口,引发了一场关于RAG(Retrieval Augmented Generation)是否仍然有价值的新辩论。LLM通常与幻觉作斗争。为了应对这一挑战,引入了两种解决方案,一种涉及增加上下文窗口,另一种则是使用RAG。
最近,一些开发人员一直在试验Gemini 1.5。沃顿商学院教授Ethan Mollick在X上写道:“我上传了《了不起的盖茨比》,并在其中进行了两处改动(提到了一部‘盒子里的iPhone’和一部‘激光割草机’)。Gemini处理得非常好(并且还找到了另一个问题)。Claude虽然也能处理,但会出现幻觉。RAG则不起作用。”
另一位X用户Mckay Wrigley将一整本生物学教科书输入Gemini 1.5 Pro。他问了三个非常具体的问题,每个问题的答案都是100%正确的。
Cognosys联合创始人兼首席执行官Sully Omar写道:“Gemini 1.5 Pro仍然没有得到充分宣传。我直接从GitHub上传了整个代码库,以及所有问题,包括Vercel AI SDK。它不仅能够理解代码库,还发现了最紧迫的问题并实施了修复。这改变了一切。”。
上面的三个例子证明,Gemini 1.5凭借其广泛的上下文窗口,成功地检索了文档中的关键信息。然而,这并不能说明RAG的局限性。
RAG与上下文窗口
许多人仍然对RAG和上下文窗口之间的区别感到困惑。上下文窗口将模型限制为给定文本范围内的信息,而RAG将模型的功能扩展到外部来源,极大地拓宽了可访问信息的范围。
注意到互联网上的炒作,谷歌DeepMind研究和深度学习团队负责人Oriol Vinyals表达了他的观点,他说:“尽管我们现在可以在上下文中处理100万或更多的token,但RAG还没有发挥出全部能力。事实上,RAG有一些很好的属性可以增强长上下文(也可以通过长上下文增强)。”
他补充道:“RAG允许您查找相关信息,但由于压缩,模型访问信息的方式可能过于受限。长上下文可能有助于弥合这一差距,类似于现代CPU中L1/L2缓存和主存储器的协同工作方式。”
更大的上下文窗口允许LLM考虑更多的文本,从而生成更准确、连贯的响应,尤其是对于复杂和长句。然而,这并不意味着模型不会产生幻觉。
根据斯坦福大学、加州大学伯克利分校和Samaya AI的研究人员发表的一篇题为《迷失在中间:语言模型如何使用长上下文》的论文,LLM在文档的开头和结尾都表现出很高的信息检索准确性。然而,这种精度在中间会下降,尤其是随着输入处理的增加。
RAG仍有立足之地
DAIR联合创始人Elvis Saravia写道:“我在过去几天看到的最糟糕的情况是,像Gemini 1.5这样的长上下文模型将取代RAG。”
他进一步补充道,为了解决这些类型的问题,可以将RAG和长上下文LLM结合起来,构建一个强大的系统,有效地检索和执行关键历史信息的大规模分析。
他说:“我们将在解决一些挑战方面取得进展,如“中间丢失”和处理更复杂的结构化和动态数据,但我们还有很长的路要走。”Saravia补充说,不同的LLM将有助于解决不同类型的问题。“我们需要摆脱一个LLM会统治所有的想法。”
毫无疑问,Gemini 1.5的性能优于Claude 2.1和GPT-4 Turbo,因为它可以吸收整个代码库,处理100多篇论文和各种文档,但它肯定没有杀死RAG。