用LLM将非结构化数据转化为结构化数据
2023年06月25日 由 Samoyed 发表
616323
0
本文将介绍如何使用LLM从文档中提取见解,进行大规模分析和机器学习。
因为ChatGPT的流行,聊天界面是大多数用户与LLM交互的方式。虽然对于生成回复来说,这是快速、直观和有趣的,但是这个接口有一些基本的限制,使它们无法被用于生产。
慢速——聊天界面被优化以提供低延迟体验。这样的优化通常以牺牲吞吐量为代价,使得它们不适合大规模的分析用例。
不精确——即使经过几天专门的提示迭代,LLM往往倾向于对简单的问题提供冗长的回答。虽然在类似聊天的交互中,这样的响应有时更容易被人类理解,但在更广泛的软件生态系统中,这样的回答通常更难以解析和使用。
对分析的支持有限——即使连接到您的私人数据(通过嵌入索引或其他方式),大多数部署用于聊天的LLM根本无法摄取数据分析师通常提出的许多类问题所需的所有上下文。
现实情况是,许多LLM支持的搜索和问答系统并没有针对大规模的生产级分析用例进行优化。
正确的方法:使用LLM从非结构化数据中生成结构化的见解
假设你是一个投资组合经理,有大量的财务文件。你想问以下问题:“在这10项潜在投资中,每家公司在2000年至2023年之间实现的收入最高的是哪项?”一个开箱即用的LLM,即使有一个索引检索系统连接到您的私有数据,也很难回答这个问题,因为需要大量的上下文。
幸运的是,有一个更好的方法。你可以通过首先使用LLM将你的非结构化文档通过单一的大批量作业转换为结构化表格,从而更快地回答你整个语料库的问题。使用这种方法,我们上面的假设中的金融机构可以使用一个定义好的模式从大量的金融PDF文件中生成结构化的数据。然后,以基于聊天的LLM难以企及的方式快速生成他们投资组合的关键统计数据。
甚至更进一步,你可以在派生的结构化数据之上建立全新的表格式机器学习模型,用于下游的数据科学任务(例如,基于这10个风险因素,哪家公司最有可能违约)。与基于聊天的LLM相比,这种使用衍生结构化数据的小型特定任务机器学习模型会表现得更好,运行成本更低。
来源:https://www.kdnuggets.com/2023/06/predibase-unstructured-structured-data-llms.html