为什么检索增强很重要
下面的图表显示了2023年的流行话题趋势,很明显,大部分的叙述都集中在检索增强(又称为RAG,检索增强生成)上。
因此,这是OpenAI Playground的一个重要扩展。可以肯定地说,OpenAI Playground已经扩展成了一个从无代码到低代码的仪表板。
OpenAI检索功能的基本知识
OpenAI的检索功能使新助手能够利用上传文件中的知识。文件上传,系统会自动处理该文件,并且在需要时自动由助手引用。
OpenAI决定何时从上传的文档中检索内容以及间接地检索上下文;这一切都是基于用户输入。
考虑下面的图片,首先助手被问到一个高度上下文化和最近的问题,模型无法回答。因为这个问题落在了模型训练的时间窗口之外。
在第二张图片中,通过检索选项上传了一个文档,且同样的问题以一种简洁明了的方式得到了回答,信息是从文档中检索出来的。
需要考虑的是,检索(Retrieval)功能是由OpenAI建立和托管的,它是一个封闭且内部管理的服务。
检索工具仅与gpt-3.5-turbo-1106和gpt-4-1106-preview模型兼容。
探索内部机制
OpenAI表示,检索功能的目的是通过来自预训练模型之外的知识来增强助手的功能。
需要在自动化与粒度控制之间找到平衡...而这里就是问题所在。
一旦文件上传并传递给助手,OpenAI将自动分块处理你的文档,索引和存储嵌入,并实现向量搜索以检索相关内容来回答用户查询。
这个过程是按顺序自动进行的,因此在上传文件时,处理需要相当长的时间。对于不了解情况的人来说,这可能看起来像是“上传”文件的一个漫长过程。然而,需要考虑的是,当文件上传时,第一到第四步是在设计时自动执行的。而第五和第六步则是在运行时执行的。
在用户向助手输入信息后,模型决定何时根据用户消息检索内容。
助手会自动在两种检索技术之间选择:
检索旨在通过向模型调用的上下文中添加相关内容来优化。
OpenAI 正在计划引入其他检索策略,以便允许开发者在检索质量和模型使用成本之间做出不同的权衡。
结论
这项功能是朝着正确方向迈出的一步,我想知道有多少初创公司和基于“简单文件上传 RAG 方法”的产品会被检索功能取代,或至少大大边缘化。
正如 OpenAI 所述,内部采用的是传统的 RAG 架构。然而,随着复杂性的增加,对灵活性的需求也将增长。
企业实施所需的一项功能是控制如何处理多个文档。
能够直接执行向量搜索以检查反馈,而无需任何调整或上下文化向量搜索输出,也将是有洞察力的。
日志无法深入提供关于提示结构的洞察,以及如何使用上下文数据查询模型。或者如何注入提示。
更多关于如何使用 RAG 的洞察将允许精明的应用管理。
RAG 的一个优势和吸引力在于它不像软提示或提示调整这样的渐变实现那样不透明。而是从头到尾,提示、块和向量响应都是人类可读和可解释的。
这使得故障排除和发现、检查和纠正变得更容易。
下面,需要从检索器获得回应的输入和检索器的反馈。
"file_ids": [],
"assistant_id": "asst_4sjzbHE86T3KNK5nIDDSa9CO",
"run_id": "run_lzIoGBYo8DhvHG5sU1G8XQ4t",
"metadata": {}
},
{
"id": "msg_uTDYVgKOiwssHI0YSgVH6sZM",
"object": "thread.message",
"created_at": 1699381752,
"thread_id": "thread_CcJtgJbYv5JzkzGJarvGVk1f",
"role": "user",
"content": [
{
"type": "text",
"text": {
"value": "Who won the 2023 rugby World Cup?",
"annotations": []
}
}
],
"file_ids": [],
"assistant_id": null,
"run_id": null,
"metadata": {}
},
{
"id": "msg_HQISlVFGTF5Nv8hkdzngXOGk",
"object": "thread.message",
"created_at": 1699369844,
"thread_id": "thread_CcJtgJbYv5JzkzGJarvGVk1f",
"role": "assistant",
"content": [
{
"type": "text",
"text": {
"value": "The winner of the 2023 Rugby World Cup was South Africa, as they defeated New Zealand in the final to claim their fourth World Cup title.",
"annotations": []
}
}
]