语义搜索与LLM可以做些什么
2023年08月03日 由 Samoyed 发表
920868
0
Stack Overflow表示:“语义搜索和LLM就像饼干和牛奶一样密不可分。”
像ChatGPT这样的大型语言模型不能像你的朋友那样理解你说的话。这是因为这些模型存在语境问题。从2021年开始,大家的关注点从反向链接和关键词转移到了理解意图和行为,以及它们背后的语义。
生成式搜索开辟了语义搜索的新领域,具有序列生成能力的 LLM 是这项任务的理想选择。前几天,由于页面流量不断增加,问答平台Stack Overflow决定切换到语义搜索。在公告博客中,该公司表示:“语义搜索和LLM就像饼干和牛奶一样密不可分。”这家成立于2008年的公司在过去几年里一直使用微软SQL的全文搜索和Elasticsearch。“但即使使用最先进的算法,搜索也会遇到一些严重的问题,”博客中写道。
博客列举了转向语义搜索的原因,首先,词汇搜索非常死板。如果关键字拼写错误或使用了同义词,除非对索引进行了处理,否则将无法搜索到想要的内容。如果你像在寻求帮助一样,输入的一个问题,那么找不到任何匹配文档的可能性非常高。第二,词汇搜索对于那些使用专门的标点符号和布尔运算符来进行搜索的人来说很不直观。
语言模型具有非凡的能力:它们不仅可以发现相关信息,还可以用自然语言作出响应,在搜索过程中提供类似人类的对话体验。这种LLM特性已被证明对聊天机器人和问答系统是有利的。
用外行的话来说,语义搜索就是以人类的方式理解查询背后的含义和意图。因此,它可以准确提供和背景相关的搜索结果。此外,LLM和文本嵌入的集成可以更快地检索文档,大大减少用户的搜索时间。
Stack Overflow表示,它的“宗旨很简单:准确和归属”。虽然大型语言模型(LLM)生成的结果来源不明,但该公司已着手对其检索增强生成(RAG)LLM回复中使用的问题和答案进行明确归属。
去年,音乐服务和播客领域无可争议的领导者Spotify使用了语义搜索,以改善平台的使用体验。包括利用他们的一体化播客创作应用程序Anchor的语义搜索,以增强播客API和使用自然语言的播客搜索功能。
在此之前,用户必须依靠关键字匹配来发现感兴趣的播客。然而,随着语义搜索的引入,搜索的体验类似于与朋友交谈,让搜索结果得到了显著的改善。这种新的方法可以根据单词和句子的含义进行搜索,而不仅仅是特定的术语,从而产生更准确的播客搜索体验。
科技巨头谷歌的目标是成为一个完全语义化的搜索引擎。值得注意的是,它的所有重大创新,如RankBrain、E-A-T、BERT和MUM,都直接或间接地推进了这一目标。
谷歌开发语义搜索引擎的努力可以追溯到1999年。随着2012年知识图谱的引入和2013年排名算法(俗称Hummingbird)的根本性变化,它变得更加具体。随着这家 IT 巨头提出“语义体验”(Semantic Experiences)计划,该公司开始展现出其语义能力。
但谷歌并不是唯一一家这样做的公司。
微软的AI For Scale计划也严重依赖语义搜索。这家软件巨头在公司博客中写道:我们称这种转换能力为语义搜索——这是可以为客户提供大规模人工智能的主要方式。
虽然Stack Overflow在最近在其搜索中集成了语义模型,但早在去年ChatGPT在互联网上名声大开时,就有一些人预测语义搜索与语言模型结合的方式可以成为实现更好的搜索体验的合适方法。
当语义搜索和生成式人工智能一起工作时,它们可以提高准确性、可信度和保持研究最新的便利性。在适应方面落后或选择采用生成式人工智能而不结合语义搜索等技术的公司,将在激烈的竞争中举步维艰。要想在竞争中占据优势,就必须走在前列,而利用语义学和语言模型的综合力量则能提供战略优势。
来源:https://analyticsindiamag.com/what-semantic-search-can-do-for-llms/