来自中国科学技术大学和腾讯优图实验室的一组科学家设计了多模态大语言模型中人工智能幻觉问题的突破性解决方案。
解决人工智能幻觉:介绍啄木鸟
该解决方案是通过一篇题为“啄木鸟:多模态大语言模型的幻觉校正”的已发表研究论文引入的。这项研究发表在预印本服务器arXiv上。
啄木鸟利用三种不同的人工智能模型。这与正在纠正幻觉的MLLM不同。型号是GPT-3.5涡轮增压,接地恐龙和BLIP-2-FlanT5。它们的融合促进了系统,在该系统中进行评估以首先识别幻觉,然后命令正在校正幻觉的模型根据其数据重新生成其结果。
这不是第一次尝试纠正人工智能模型中幻觉的挑战。在此之前,现有的解决方案涉及指令调优方法,该方法需要使用特定数据重新训练模型。然而,这些方法是数据和计算密集型的,这同样意味着它们很昂贵。
根据其名称背后的灵感,啄木鸟框架分为五个不同的阶段,包括关键概念提取、问题制定、视觉知识验证、视觉声明生成和幻觉纠正。
人工智能模型中的幻觉
就上下文而言,当人工智能模型以高度置信度生成输出但与其训练数据中嵌入的信息不一致时,通常认为人工智能幻觉发生了。
这些场景在很大程度上是在大型语言模型研究中经历的。使用LLM并面临这些幻觉风险的AI应用程序的一个例子包括OpenAI的ChatGPT和Anthropic的Claude。
根据研究论文中的注释,“幻觉是笼罩在快速发展的多模态大语言模型上的一个大阴影,指的是生成的文本与图像内容不一致的现象。
随着 GPT-4 等新聊天机器人模型的发布,尤其是其视觉变体 GPT-4V 以及其他将图片和文本处理成生成人工智能模式的视觉系统,此类幻觉事件迫在眉睫,啄木鸟被认为是可行的解决方案。