激光网
当前位置: 首页 > 软件 > 正文

Microsoft研究人员推出InsightPilot:LLM支持的自动化数据探索系统

2023-12-24 21:38:03  来源:激光网原创    

数据探索是数据分析中的重要一步,它使用过滤、排序、分组等多个步骤提取关键见解。它有助于发现数据集中的模式并揭示变量之间的潜在关系。但是,此过程通常是交互式的,需要用户手动浏览数据,这使得该过程非常耗时且需要领域专业知识。

尽管存在用于一般数据探索的不同工具,但它们通常无法考虑用户意图和数据集特征,从而导致不相关的见解。此外,LLM 幻觉是一个臭名昭著的问题,会导致 LLM 生成不可靠的内容。为了解决现有模型的缺点,微软的研究人员发布了InsightPilot,这是一个使用LLM自动执行数据探索过程的系统。该系统为 LLM 提供了准确的见解以避免幻觉,并提供了数据集的紧凑抽象以降低计算成本,这使得 LLM 能够更好地回答用户问题。

用户最初在界面中提出查询,见解引擎会生成初步见解。根据上下文,LLM 会识别最相关的见解,并不断查询引擎以获取有关它们的更多详细信息。例如,用户可能会询问学生科学分数的趋势,然后,根据初步见解,LLM 可能会查询引擎以进行进一步分析,例如比较分数或查找任何异常值。只要探索没有完成,LLM 和引擎之间的交互就会继续,在数据探索步骤结束时,引擎会以连贯的报告的形式呈现 top-K 见解,然后通过界面展示给用户。

为了评估其性能,研究人员进行了用户研究,以模拟InsightPilot的真实用例。四名数据科学参与者被要求提出三个问题,并根据相关性、完整性和可理解性等指标对系统进行评估。结果显示,InsightPilot 的表现始终优于 OpenAI Code Interpreter 和 Langchain Pandas Agent。

此外,还基于汽车销售数据集进行了案例研究,以评估InsightPilot的性能。在查询丰田汽车销售的整体趋势时,该系统不仅将“凯美瑞”确定为丰田销售的主要驱动力,还将丰田的销量与本田的销量进行了比较,并提供了其他有趣的见解。

尽管 InsightPilot 的性能优于其他最先进的系统,但它通常会产生模糊的答案,需要手动评估。因此,在不同的现实数据集中测试其有效性至关重要。尽管如此,它是一种使用自然语言查询从数据集中获取见解的有效方法,并且有可能简化探索性数据分析过程并节省时间和精力。需要进一步的研究,以确保该方法可以部署在现实世界的场景中,并提高效率和数据驱动的决策。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com