NarrativeFactScore：用于评估和完善摘要的代理评判框架

2025年01月24日由 alex 发表 2878 0

LLM-as-a-Judge解决了基于词汇相似度的指标所存在的局限性，但这些指标仍然表现出事实性不一致的问题，尤其是在理解角色关系和状态方面。为了解决这个问题，本文引入了NARRATIVEFACTSCORE，这是一个新颖的“代理-评判者”框架，用于评估和精炼摘要。通过利用从输入文本和生成的摘要中提取的角色知识图谱（CKG），NARRATIVEFACTSCORE评估事实一致性，并为精炼提供可操作的指导，例如识别缺失或错误的事实。

概述

评估和精炼的整体过程包括三个主要阶段：

首先，它展示了从叙事文本N中提取角色知识图谱G的过程。
接下来，它描绘了通过比较分解后的摘要ak与检索到的角色关系子图g和叙事场景Si来计算事实性的过程。
最后，它说明了基于代理的精炼过程，其中使用反馈（f1, f2, …）来提高摘要的事实准确性。

方法

下图说明了此框架的三个阶段，并进行了进一步解释。

i) CKG提取

这一步涉及对每个场景进行多次推理，并选择频繁出现的关系以提高一致性和准确性。

给定一个由场景集合N = {S1, S2, ..., Sm}表示的叙事文本，其中m表示场景的数量，目标是提取一个封装角色关系的图谱G。
每个场景Si（1 ≤ i ≤ m）被单独处理，使用GPT-4o-mini提取关系三元组（主语-谓语-宾语）。
提取的三元组用于初始化节点，并根据节点之间的主要关系确定边，通过以下两个步骤形成最终的CKG G：

a) 构建名称图

这有助于通过合并场景中的别名或名称变体来保持角色识别的一致性。例如，在《指环王》中，“Frodo”和“Frodo Baggins”被识别为同一个角色。
如下图所示，名称的每个变体都是一个节点，无向边连接指向同一角色的节点。这一步确保了即使名称在不同场景中有所变化，也能准确捕捉关系。

知识图谱使用名称图中的名称进行初始化。

b) 选择最终边

为了保持关系的一致性，对提取的三元组进行处理，选择频繁出现的作为最终边。

仅使用以命名实体为主语和宾语的三元组；如果缺少宾语，则添加一个自环来表示角色的状态。

对于主语和宾语相同的三元组，将频繁出现的谓语作为有向边添加到知识图谱中。

由于关系可能涉及多个谓语，因此将包含所有超过设定阈值的谓语。

调整阈值可以控制图谱：较高的阈值确保更高的一致性，而较低的阈值则增加多样性。

ii) NARRATIVEFACTSCORE计算

我们引入了一种新的指标来指导代理评估，与现有的事实性指标不同，现有指标仅表面地考虑输入故事中的事件，但忽略了关于角色的关系信息，且不提供其评分的证据或反馈。

为了计算叙事摘要的事实性，我们首先使用以下提示生成一个初始摘要Z，该提示涉及对电影剧本中的一段叙事进行总结。

使用以下提示，将初始摘要Z中的每个句子分解成一系列原子事实A = {a1, a2, ..., az}。

为了评估每个原子事实ak，首先，我们使用BGE-M3在叙事文本N中检索与ak最相关的场景Si。其次，我们还从线性化的CKG G中检索子图g，如下图所示，该子图包含涉及ak中提到的角色的三元组。

每个原子事实ak都会经过评估，以确定其事实性，并使用以下提示获得支持该评估的反馈，如果事实准确，则输出1。如果事实被判定为不准确，该提示还会提供反馈fi，说明如何进行修正。

最后，根据以下方程计算NARRATIVEFACTSCORE，即被判定为事实性的原子事实所占比例：

其中1是指示函数，如果原子事实ai是事实性的，则输出1，否则输出0。

iii) 基于代理的事实精炼

利用一致的角色知识图谱（CKG）的新指标使代理能够利用评估反馈来指导精炼过程。

此过程涉及三个关键输入：原始叙事文本以提供全局上下文，需要修改的初始摘要，以及详细说明不准确之处及错误原因的反馈。

使用这些输入和下面描述的提示，大型语言模型（LLM）生成一个改进后的摘要y，该摘要纠正了之前识别出的事实性不准确之处。

基于代理的精炼过程是迭代的，每次迭代都会通过解决任何剩余的不准确之处来进一步完善摘要，最终提升整体的事实性。

演示场景

我们提出一个演示，以简化对事实性评估的访问。

下图显示了系统的截图，与框架的三个阶段相对应。

使用《黑豹》作为示例，用户在选择数据集、数据类型和名称后，可以查看原始叙事文本。点击“生成知识图谱”按钮会生成并可视化角色知识图谱（CKG）。

“生成初始摘要”和“计算事实性得分”按钮会创建一个初始摘要，并使用CKG评估其事实性。

最后，“精炼摘要”功能会根据反馈改进摘要，提升事实性。

实验

i) 评估指标

我们使用几个关键评估指标来评估框架的性能。

ROUGE：评估与参考摘要的n元语法重叠度，包括R-1（单词重叠）、R-2（二元组重叠）和R-L（最长公共子序列）。

BERTScore（BSp、BSr、BSf1）：使用BERT嵌入评估相似性，其中BSp表示精确率，BSr表示召回率，BSf1表示F1得分。

BARTScore：通过将其作为条件语言生成任务来评分，衡量摘要的质量。

NARRATIVEFACTSCORE（NFS）：作为衡量生成摘要事实性的新指标而提出。

ii) 与人类事实性评分的相关性

下表显示了不同指标与STORYSUMM和FABLES数据集上人类事实性评估之间的Spearman和Kendall's tau相关系数。

从结果中观察到，NARRATIVEFACTSCORE在所有指标中与人类标注的相关性最高。具体而言，NARRATIVEFACTSCORE的Kendall's tau相关系数超过了0.34，这表明与人类标注存在强相关性。

这种相关性的统计显著性通过p值0.00003来计算，表明NARRATIVEFACTSCORE与人类标注之间的关系是强且统计上显著的。

iii) 摘要性能评估

下表显示了MENSA和MovieSum数据集上的评估结果。

结果显示，基于代理的精炼不仅提高了事实性，还全面提升了各项评估指标，从而改善了摘要的整体质量。

非合并基线的结果表明，总结长篇叙事文本在事实性和其他指标方面都颇具挑战性。

然而，基于代理的精炼展现出了提高性能的能力，尽管重复精炼可能会导致饱和，即进一步改进的空间变得很小。

结论

演示展示了代理作为评判者如何有助于克服现有评估指标的局限性，如过度依赖词汇相似性或事实性不一致。

我们提出了基于一致角色知识图谱（CKG）的提取方法、基于CKG的新的事实性评估指标，以及一个能够评估并指导摘要和精炼过程的代理。

通过实施，我们展示了这一过程，并在现实行业数据集和场景中证明了其相对于最先进方法的优越性能。

文章来源：https://medium.com/@techsachin/narrativefactscore-agent-as-judge-framework-for-evaluating-and-refining-summaries-078a2208d4f1

标签：

大型语言模型人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇使用Python进行时间序列状态转换分析

下一篇使用DeepSeek R1和Ollama开发 RAG 系统

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来