当前位置：首页 > 软件 > 正文

Microsoft研究人员推出InsightPilot：LLM支持的自动化数据探索系统

2023-12-24 21:38:03　来源：激光网原创　

数据探索是数据分析中的重要一步，它使用过滤、排序、分组等多个步骤提取关键见解。它有助于发现数据集中的模式并揭示变量之间的潜在关系。但是，此过程通常是交互式的，需要用户手动浏览数据，这使得该过程非常耗时且需要领域专业知识。

尽管存在用于一般数据探索的不同工具，但它们通常无法考虑用户意图和数据集特征，从而导致不相关的见解。此外，LLM 幻觉是一个臭名昭著的问题，会导致 LLM 生成不可靠的内容。为了解决现有模型的缺点，微软的研究人员发布了InsightPilot，这是一个使用LLM自动执行数据探索过程的系统。该系统为 LLM 提供了准确的见解以避免幻觉，并提供了数据集的紧凑抽象以降低计算成本，这使得 LLM 能够更好地回答用户问题。

用户最初在界面中提出查询，见解引擎会生成初步见解。根据上下文，LLM 会识别最相关的见解，并不断查询引擎以获取有关它们的更多详细信息。例如，用户可能会询问学生科学分数的趋势，然后，根据初步见解，LLM 可能会查询引擎以进行进一步分析，例如比较分数或查找任何异常值。只要探索没有完成，LLM 和引擎之间的交互就会继续，在数据探索步骤结束时，引擎会以连贯的报告的形式呈现 top-K 见解，然后通过界面展示给用户。

为了评估其性能，研究人员进行了用户研究，以模拟InsightPilot的真实用例。四名数据科学参与者被要求提出三个问题，并根据相关性、完整性和可理解性等指标对系统进行评估。结果显示，InsightPilot 的表现始终优于 OpenAI Code Interpreter 和 Langchain Pandas Agent。

此外，还基于汽车销售数据集进行了案例研究，以评估InsightPilot的性能。在查询丰田汽车销售的整体趋势时，该系统不仅将“凯美瑞”确定为丰田销售的主要驱动力，还将丰田的销量与本田的销量进行了比较，并提供了其他有趣的见解。

尽管 InsightPilot 的性能优于其他最先进的系统，但它通常会产生模糊的答案，需要手动评估。因此，在不同的现实数据集中测试其有效性至关重要。尽管如此，它是一种使用自然语言查询从数据集中获取见解的有效方法，并且有可能简化探索性数据分析过程并节省时间和精力。需要进一步的研究，以确保该方法可以部署在现实世界的场景中，并提高效率和数据驱动的决策。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com

Microsoft研究人员推出InsightPilot：LLM支持的自动化数据探索系统

相关阅读RELEVANT

榜单

今日推荐

企业快讯