大型语言模型 在自然语言处理方面表现出卓越的能力,几乎在每个领域都有应用,其中事实问答是最常见的用例之一。与其他人不同,事实答案可以在不同的粒度级别上正确回答。例如,“1961”和“1961年8月4日”都是对“巴拉克·奥巴马何时出生”这个问题的正确回答。提供答案的这种多功能性给准确评估此类答案带来了挑战,并导致词汇匹配和人工评估之间的分歧。
标准问答评估设置不考虑事实答案的这种性质,并且通常根据一组相同粒度的参考答案评估预测答案。即使在不同粒度级别的情况下,也没有哪个匹配更好的概念。这通常会导致对LLM知识的低估,这被称为知识评估差距。为了解决这个问题,谷歌这篇研究论文的作者引入了GRANOLA QA,这是一种多粒度的QA评估设置,不仅评估答案的准确性,还评估信息量。
准确性的衡量基于将答案与任何 GRANOLA 答案进行匹配,以及通过使用适当的加权方案与细粒度答案进行匹配来衡量信息量。GRANOLA 的答案生成过程有两个步骤——首先,使用外部知识图谱获得答案实体的描述以及问题中出现的任何实体,其次,LLM 被零样本提示以创建不同粒度级别的答案的有序列表。
研究人员使用维基数据来验证答案的正确性。为了提供信息,检查回答是否是问题的微不足道的答案,即它可以仅基于问题模板生成。最后,对于粒度,研究人员评估响应是否比之前的答案更粗糙。
研究人员还开发了GRANOLA-EQ,这是ENTITYQUESTIONS数据集的多粒度版本,并使用不同的解码方法评估了模型,包括一种名为DRAG的新解码策略,该策略鼓励LLM根据其不确定性水平定制其响应的粒度级别。结果表明,LLM倾向于生成通常不正确的特定答案。相反,当在多粒度答案上评估 DRAG 时,它表明平均准确率提高了 20 分,对于稀有实体来说,这进一步提高了。
作者还强调了他们工作的一些局限性。他们使用多粒度答案增强 QA 基准的方法取决于从原始 QA 对中提取实体并将它们与其知识图谱条目进行匹配。在结构化程度较低的数据集中,此过程可能更复杂。此外,为了进行更好的评估,必须根据真实的知识来区分正确答案,而不仅仅是有根据的猜测。
总之,本文的作者强调,生成比他们的知识支持的更详细的响应是 LLM 中事实错误的主要来源。他们引入了 GRANOLA QA、GRANOLA EQ 和 DRAG,所有这些都旨在使这些模型的响应粒度与其不确定性水平保持一致。实验表明,在评估和解码过程中考虑粒度水平可以显著提高模型的精度。尽管存在一些局限性,但他们的工作为扩大未来研究提供了良好的起点。