当前位置：首页 > 软件 > 正文

Google AI推出GRANOLA QA：通过多粒度评估彻底改变问答

2024-01-15 10:18:13　来源：激光网原创　

大型语言模型在自然语言处理方面表现出卓越的能力，几乎在每个领域都有应用，其中事实问答是最常见的用例之一。与其他人不同，事实答案可以在不同的粒度级别上正确回答。例如，“1961”和“1961年8月4日”都是对“巴拉克·奥巴马何时出生”这个问题的正确回答。提供答案的这种多功能性给准确评估此类答案带来了挑战，并导致词汇匹配和人工评估之间的分歧。

标准问答评估设置不考虑事实答案的这种性质，并且通常根据一组相同粒度的参考答案评估预测答案。即使在不同粒度级别的情况下，也没有哪个匹配更好的概念。这通常会导致对LLM知识的低估，这被称为知识评估差距。为了解决这个问题，谷歌这篇研究论文的作者引入了GRANOLA QA，这是一种多粒度的QA评估设置，不仅评估答案的准确性，还评估信息量。

准确性的衡量基于将答案与任何 GRANOLA 答案进行匹配，以及通过使用适当的加权方案与细粒度答案进行匹配来衡量信息量。GRANOLA 的答案生成过程有两个步骤——首先，使用外部知识图谱获得答案实体的描述以及问题中出现的任何实体，其次，LLM 被零样本提示以创建不同粒度级别的答案的有序列表。

研究人员使用维基数据来验证答案的正确性。为了提供信息，检查回答是否是问题的微不足道的答案，即它可以仅基于问题模板生成。最后，对于粒度，研究人员评估响应是否比之前的答案更粗糙。

研究人员还开发了GRANOLA-EQ，这是ENTITYQUESTIONS数据集的多粒度版本，并使用不同的解码方法评估了模型，包括一种名为DRAG的新解码策略，该策略鼓励LLM根据其不确定性水平定制其响应的粒度级别。结果表明，LLM倾向于生成通常不正确的特定答案。相反，当在多粒度答案上评估 DRAG 时，它表明平均准确率提高了 20 分，对于稀有实体来说，这进一步提高了。

作者还强调了他们工作的一些局限性。他们使用多粒度答案增强 QA 基准的方法取决于从原始 QA 对中提取实体并将它们与其知识图谱条目进行匹配。在结构化程度较低的数据集中，此过程可能更复杂。此外，为了进行更好的评估，必须根据真实的知识来区分正确答案，而不仅仅是有根据的猜测。

总之，本文的作者强调，生成比他们的知识支持的更详细的响应是 LLM 中事实错误的主要来源。他们引入了 GRANOLA QA、GRANOLA EQ 和 DRAG，所有这些都旨在使这些模型的响应粒度与其不确定性水平保持一致。实验表明，在评估和解码过程中考虑粒度水平可以显著提高模型的精度。尽管存在一些局限性，但他们的工作为扩大未来研究提供了良好的起点。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com

Google AI推出GRANOLA QA：通过多粒度评估彻底改变问答

相关阅读RELEVANT

榜单

今日推荐

企业快讯