微软InsightPilot:用LLM推动高效数据探索

2023年12月25日 由 daydream 发表 663 0

数据探索是数据分析的重要步骤,通过过滤、排序、分组等多个步骤提取关键见解。它有助于揭示数据集中的模式,并揭示变量间可能的关系。然而,这个过程通常是交互式的,需要用户手动探索数据,这使得过程耗时并需要领域专业知识。


微信截图_20231225113902


尽管存在用于一般数据探索的不同工具,但它们往往未能考虑用户意图和数据集特征,导致相关性不高的见解。此外,语言模型产生错误信息是一个普遍的问题,导致生成的内容不可靠。为了解决现有模型的不足,微软的研究人员推出了InsightPilot,这是一个使用大型语言模型(LLM)自动化数据探索过程的系统。该系统向LLM提供准确的见解以避免错误信息,并呈现数据集的紧凑抽象以减少计算成本,这允许LLM更好地回答用户问题。


InsightPilot包含以下三个组件:


  • 一个UI界面,允许用户以自然语言提问,并展示分析结果。
  • 一个LLM,通过上下文选择适当的分析来促进数据探索。
  • 一个见解引擎,进行分析并以自然语言呈现结果。


用户最初在界面中提出查询,见解引擎生成初步见解。根据上下文,LLM确定最相关的见解,并继续向引擎查询更多细节。例如,用户可能会询问学生的科学成绩趋势,然后,基于初步见解,LLM可能会要求引擎进一步分析,比如比较成绩或寻找任何异常情况。只要探索未完成,LLM与引擎之间的交互持续进行,在数据探索步骤结束时,引擎呈现前K个见解形成一份连贯的报告,然后通过界面显示给用户。


为了评估其性能,研究人员进行了用户研究以模拟InsightPilot的真实世界用例。要求四名数据科学参与者提出三个问题,并根据相关性、完整性和可理解性等指标评估系统。结果显示,InsightPilot一致优于OpenAI代码解释器和Langchain Pandas代理。


还对基于汽车销售数据集的案例研究进行了性能评估。在询问丰田汽车销售的总体趋势时,系统不仅识别出“凯美瑞”是丰田销售的主要推动力,还比较了丰田和本田的销售情况,并提供了其他有趣的见解。


尽管InsightPilot的性能优于其他最先进的系统,但它经常产生含糊的答案,需要手动评估。因此,测试其在不同真实生活数据集中的有效性是至关重要的。尽管如此,它是一个有效的方法,可以使用自然语言查询从数据集中提取见解,并有望简化探索性数据分析过程,节省时间和精力。需要进一步的研究来确保这种方法能够在现实世界情景中部署并提高效率及数据驱动的决策。

文章来源:https://www.marktechpost.com/2023/12/24/microsoft-researchers-introduce-insightpilot-an-llm-empowered-automated-data-exploration-system/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消