激光网
当前位置: 首页 > 软件 > 正文

Google AI推出GRANOLA QA:通过多粒度评估彻底改变问答

2024-01-15 10:18:13  来源:激光网原创    

大型语言模型 在自然语言处理方面表现出卓越的能力,几乎在每个领域都有应用,其中事实问答是最常见的用例之一。与其他人不同,事实答案可以在不同的粒度级别上正确回答。例如,“1961”和“1961年8月4日”都是对“巴拉克·奥巴马何时出生”这个问题的正确回答。提供答案的这种多功能性给准确评估此类答案带来了挑战,并导致词汇匹配和人工评估之间的分歧。

标准问答评估设置不考虑事实答案的这种性质,并且通常根据一组相同粒度的参考答案评估预测答案。即使在不同粒度级别的情况下,也没有哪个匹配更好的概念。这通常会导致对LLM知识的低估,这被称为知识评估差距。为了解决这个问题,谷歌这篇研究论文的作者引入了GRANOLA QA,这是一种多粒度的QA评估设置,不仅评估答案的准确性,还评估信息量。

准确性的衡量基于将答案与任何 GRANOLA 答案进行匹配,以及通过使用适当的加权方案与细粒度答案进行匹配来衡量信息量。GRANOLA 的答案生成过程有两个步骤——首先,使用外部知识图谱获得答案实体的描述以及问题中出现的任何实体,其次,LLM 被零样本提示以创建不同粒度级别的答案的有序列表。

研究人员使用维基数据来验证答案的正确性。为了提供信息,检查回答是否是问题的微不足道的答案,即它可以仅基于问题模板生成。最后,对于粒度,研究人员评估响应是否比之前的答案更粗糙。

研究人员还开发了GRANOLA-EQ,这是ENTITYQUESTIONS数据集的多粒度版本,并使用不同的解码方法评估了模型,包括一种名为DRAG的新解码策略,该策略鼓励LLM根据其不确定性水平定制其响应的粒度级别。结果表明,LLM倾向于生成通常不正确的特定答案。相反,当在多粒度答案上评估 DRAG 时,它表明平均准确率提高了 20 分,对于稀有实体来说,这进一步提高了。

作者还强调了他们工作的一些局限性。他们使用多粒度答案增强 QA 基准的方法取决于从原始 QA 对中提取实体并将它们与其知识图谱条目进行匹配。在结构化程度较低的数据集中,此过程可能更复杂。此外,为了进行更好的评估,必须根据真实的知识来区分正确答案,而不仅仅是有根据的猜测。

总之,本文的作者强调,生成比他们的知识支持的更详细的响应是 LLM 中事实错误的主要来源。他们引入了 GRANOLA QA、GRANOLA EQ 和 DRAG,所有这些都旨在使这些模型的响应粒度与其不确定性水平保持一致。实验表明,在评估和解码过程中考虑粒度水平可以显著提高模型的精度。尽管存在一些局限性,但他们的工作为扩大未来研究提供了良好的起点。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com