LLM的‘内心戏’:用机械可解释性拆解RAG幻觉,你的模型到底更信自己还是更信资料?

张开发
2026/4/21 4:15:44 15 分钟阅读

分享文章

LLM的‘内心戏’:用机械可解释性拆解RAG幻觉,你的模型到底更信自己还是更信资料?
LLM的‘内心戏’用机械可解释性拆解RAG幻觉你的模型到底更信自己还是更信资料当Llama2在回答你的问题时它的大脑里究竟发生了什么那些看似流畅的回答背后隐藏着怎样的决策机制我们常常将大语言模型视为黑箱但通过机械可解释性Mechanistic Interpretability这一工具我们可以像神经科学家研究人脑一样拆解LLM的思维过程。在检索增强生成RAG场景中模型需要平衡两种知识来源外部检索到的资料E和内部参数化知识P。理想情况下模型应该优先信任外部资料但现实往往并非如此。我们的研究发现模型有时会像固执己见的学生过分相信自己的记忆而忽略参考资料这就是RAG幻觉的根源。1. 解剖LLM的决策机制注意力头与前馈网络的角色要理解RAG幻觉首先需要了解Transformer架构中的两个关键组件如何工作1.1 注意力头信息的搬运工在Transformer中注意力头负责决定哪些信息值得关注和传递。特别值得关注的是复制头Copying Heads它们的主要工作是识别并复制外部上下文中的关键信息将这些信息传递到后续处理阶段维持信息在生成过程中的一致性复制头通过OVOutput-Value矩阵的正特征值来识别。当这些特征值较大时表明该注意力头更倾向于直接传递信息而非转换信息。# 识别复制头的简化代码示例 def identify_copying_heads(model, layer_idx, head_idx): OV_matrix model.layers[layer_idx].attention.heads[head_idx].OV eigenvalues np.linalg.eigvals(OV_matrix) positive_eigenvalues eigenvalues[eigenvalues.real 0] return np.mean(positive_eigenvalues) # 值越大复制行为越明显1.2 前馈网络知识的存储器前馈网络FFN是LLM存储参数化知识的主要场所。每个FFN层都包含大量键值对键Key触发特定知识的概念或问题值Value对应的知识内容在后期层特别是第20层以后的FFN中我们发现了知识FFNKnowledge FFNs它们专门负责检索模型内部存储的知识将这些知识注入到残差流中影响最终的生成决策注意知识FFN过度活跃会导致模型过分依赖内部知识即使这些知识与外部检索内容相矛盾。2. 诊断RAG幻觉两个关键指标要准确诊断RAG幻觉我们需要量化模型对外部资料和内部知识的依赖程度。2.1 外部上下文评分ECSECS衡量模型在生成过程中利用外部资料的程度。计算方法如下对每个生成的token找出注意力最关注的前k%的外部token计算这些token的隐藏状态均值e计算e与当前token隐藏状态的余弦相似度公式表达 $$ ECS \frac{e \cdot x_n^L}{||e|| \cdot ||x_n^L||} $$实验数据显示响应类型平均ECS与幻觉相关性真实响应0.72-0.61幻觉响应0.540.782.2 参数化知识评分PKSPKS评估模型依赖内部知识的程度通过Logit Lens技术实现将FFN前后的隐藏状态分别映射到词汇分布计算两个分布的Jensen-Shannon散度JSDdef compute_pks(model, token_idx, layer_idx): # 获取FFN前后的隐藏状态 x_mid get_hidden_state(model, token_idx, layer_idx, positionmid) x_out get_hidden_state(model, token_idx, layer_idx, positionout) # 使用Logit Lens映射到词汇分布 q_mid logit_lens(x_mid) q_out logit_lens(x_out) # 计算JSD return jensenshannon(q_mid, q_out)关键发现后期层特别是20层后的PKS与幻觉高度相关r0.83真实响应的平均PKS比幻觉响应低17%3. 幻觉的产生机制从观察到干预通过因果干预实验我们验证了RAG幻觉的两个主要产生路径3.1 复制头失效丢失外部信息当复制头不能有效工作时会出现以下情况注意力机制确实关注了相关外部内容但在信息传递过程中关键内容丢失模型转而依赖内部知识完成生成干预实验表明对复制头添加噪声会导致ECS下降23%幻觉率增加35%3.2 知识FFN过度活跃内部知识压制知识FFN过度贡献时即使外部资料准确内部知识仍占主导后期层的参数化知识覆盖了外部信息模型表现出过度自信的生成行为增强知识FFN的贡献会导致PKS上升42%幻觉率增加28%4. 解决方案ReDeEP与AARF方法基于上述发现我们提出两种应对RAG幻觉的方法。4.1 ReDeEP精准检测幻觉ReDeEP通过解耦ECS和PKS来检测幻觉$$ H_t(t) \sum_{l\in F}\alpha\cdot P_t^l - \sum_{l,h\in A}\beta\cdot E_t^{l,h} $$该方法有两种实现方式Token级精细但计算量大Chunk级平衡效率与准确性对比实验结果方法准确率召回率F1分数相对速度ReDeEP-T0.890.850.871xReDeEP-C0.860.880.873.2x基线方法0.780.760.771.5x4.2 AARF动态调整生成策略AARF在生成过程中动态干预增强复制头Add Attention对识别出的复制头将其注意力权重放大α₂ 1确保外部信息被有效保留抑制知识FFNReduce FFN对后期层的知识FFN减少其贡献0 β₂ 1防止内部知识过度影响实施AARF后在RAGTruth数据集上幻觉率降低41%事实准确性提升33%生成流畅度保持BLEU变化2%

更多文章