LLM的‘内心戏’：用机械可解释性拆解RAG幻觉，你的模型到底更信自己还是更信资料？

张开发

• 2026/4/21 4:15:44 • 15 分钟阅读

分享文章

LLM的‘内心戏’用机械可解释性拆解RAG幻觉你的模型到底更信自己还是更信资料当Llama2在回答你的问题时它的大脑里究竟发生了什么那些看似流畅的回答背后隐藏着怎样的决策机制我们常常将大语言模型视为黑箱但通过机械可解释性Mechanistic Interpretability这一工具我们可以像神经科学家研究人脑一样拆解LLM的思维过程。在检索增强生成RAG场景中模型需要平衡两种知识来源外部检索到的资料E和内部参数化知识P。理想情况下模型应该优先信任外部资料但现实往往并非如此。我们的研究发现模型有时会像固执己见的学生过分相信自己的记忆而忽略参考资料这就是RAG幻觉的根源。1. 解剖LLM的决策机制注意力头与前馈网络的角色要理解RAG幻觉首先需要了解Transformer架构中的两个关键组件如何工作1.1 注意力头信息的搬运工在Transformer中注意力头负责决定哪些信息值得关注和传递。特别值得关注的是复制头Copying Heads它们的主要工作是识别并复制外部上下文中的关键信息将这些信息传递到后续处理阶段维持信息在生成过程中的一致性复制头通过OVOutput-Value矩阵的正特征值来识别。当这些特征值较大时表明该注意力头更倾向于直接传递信息而非转换信息。# 识别复制头的简化代码示例 def identify_copying_heads(model, layer_idx, head_idx): OV_matrix model.layers[layer_idx].attention.heads[head_idx].OV eigenvalues np.linalg.eigvals(OV_matrix) positive_eigenvalues eigenvalues[eigenvalues.real 0] return np.mean(positive_eigenvalues) # 值越大复制行为越明显1.2 前馈网络知识的存储器前馈网络FFN是LLM存储参数化知识的主要场所。每个FFN层都包含大量键值对键Key触发特定知识的概念或问题值Value对应的知识内容在后期层特别是第20层以后的FFN中我们发现了知识FFNKnowledge FFNs它们专门负责检索模型内部存储的知识将这些知识注入到残差流中影响最终的生成决策注意知识FFN过度活跃会导致模型过分依赖内部知识即使这些知识与外部检索内容相矛盾。2. 诊断RAG幻觉两个关键指标要准确诊断RAG幻觉我们需要量化模型对外部资料和内部知识的依赖程度。2.1 外部上下文评分ECSECS衡量模型在生成过程中利用外部资料的程度。计算方法如下对每个生成的token找出注意力最关注的前k%的外部token计算这些token的隐藏状态均值e计算e与当前token隐藏状态的余弦相似度公式表达 $$ ECS \frac{e \cdot x_n^L}{||e|| \cdot ||x_n^L||} $$实验数据显示响应类型平均ECS与幻觉相关性真实响应0.72-0.61幻觉响应0.540.782.2 参数化知识评分PKSPKS评估模型依赖内部知识的程度通过Logit Lens技术实现将FFN前后的隐藏状态分别映射到词汇分布计算两个分布的Jensen-Shannon散度JSDdef compute_pks(model, token_idx, layer_idx): # 获取FFN前后的隐藏状态 x_mid get_hidden_state(model, token_idx, layer_idx, positionmid) x_out get_hidden_state(model, token_idx, layer_idx, positionout) # 使用Logit Lens映射到词汇分布 q_mid logit_lens(x_mid) q_out logit_lens(x_out) # 计算JSD return jensenshannon(q_mid, q_out)关键发现后期层特别是20层后的PKS与幻觉高度相关r0.83真实响应的平均PKS比幻觉响应低17%3. 幻觉的产生机制从观察到干预通过因果干预实验我们验证了RAG幻觉的两个主要产生路径3.1 复制头失效丢失外部信息当复制头不能有效工作时会出现以下情况注意力机制确实关注了相关外部内容但在信息传递过程中关键内容丢失模型转而依赖内部知识完成生成干预实验表明对复制头添加噪声会导致ECS下降23%幻觉率增加35%3.2 知识FFN过度活跃内部知识压制知识FFN过度贡献时即使外部资料准确内部知识仍占主导后期层的参数化知识覆盖了外部信息模型表现出过度自信的生成行为增强知识FFN的贡献会导致PKS上升42%幻觉率增加28%4. 解决方案ReDeEP与AARF方法基于上述发现我们提出两种应对RAG幻觉的方法。4.1 ReDeEP精准检测幻觉ReDeEP通过解耦ECS和PKS来检测幻觉$$ H_t(t) \sum_{l\in F}\alpha\cdot P_t^l - \sum_{l,h\in A}\beta\cdot E_t^{l,h} $$该方法有两种实现方式Token级精细但计算量大Chunk级平衡效率与准确性对比实验结果方法准确率召回率F1分数相对速度ReDeEP-T0.890.850.871xReDeEP-C0.860.880.873.2x基线方法0.780.760.771.5x4.2 AARF动态调整生成策略AARF在生成过程中动态干预增强复制头Add Attention对识别出的复制头将其注意力权重放大α₂ 1确保外部信息被有效保留抑制知识FFNReduce FFN对后期层的知识FFN减少其贡献0 β₂ 1防止内部知识过度影响实施AARF后在RAGTruth数据集上幻觉率降低41%事实准确性提升33%生成流畅度保持BLEU变化2%

更多文章

前端开发 2026/4/16 2:39:22

通俗易懂讲PIC单片机：从一窍不通到入门进步

单片机入门不难------谈PIC系列（转自矿石收音机论坛---崂山）十年前的老帖子，讲得通俗易懂，分享之。请看图这个8条腿的小螃蟹就是我们的第一顿饭，只要把它吃下去，以后的大餐就好办了。第1、8条腿接电源 +5V 和地线。头两条腿是螃蟹钳子，好吃的很。现在剩下了 6…

Conform与Valibot集成：轻量级Schema验证的完美选择【免费下载链接】conform Progressively enhance HTML forms with React. Build resilient, type-safe forms with no hassle using web standards. 项目地址: https://gitcode.com/gh_mirrors/co/conform …

张开发

前端开发 2026/4/19 3:18:55

kube-capacity高级用法：利用标签和污点筛选优化资源分配策略

kube-capacity高级用法：利用标签和污点筛选优化资源分配策略【免费下载链接】kube-capacity A simple CLI that provides an overview of the resource requests, limits, and utilization in a Kubernetes cluster 项目地址: https://gitcode.com/gh_mirrors/ku…

张开发

LLM的‘内心戏’：用机械可解释性拆解RAG幻觉，你的模型到底更信自己还是更信资料？

最新文章

标题：深度探索：利用WeixinSogou爬取微信公众号文章的利器

Apache Ambari入门指南：5分钟快速掌握Hadoop集群管理

[具身智能-398]：AS5600磁编码器功能和管脚详解

Mastering Modular JavaScript：模块化思维的终极指南

从光谱仪数据到产品报告：CIE1931、CCT、Duv在LED灯具测试中的实战全流程

终极对比：BigImageViewer vs PhotoDraweeView vs FrescoImageViewer 深度评测

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

通俗易懂讲PIC单片机：从一窍不通到入门进步

【仅限本次会议披露】：SITS2026多语言评估新基准ML-Bench 2.0——覆盖56个语系、137项细粒度指标

EmbeddingGemma-300m在智能客服中的应用：理解用户真实意图

如何快速实现Apache Solr与Hadoop/Spark的无缝集成：大数据搜索实战指南

PyTorch 2.8镜像部署教程：RTX 4090D环境下使用FastAPI封装模型推理接口

PROJECT MOGFACE Keil5开发效率提升：工程配置自动化与调试脚本生成

彻底搞懂Type Challenges中的Chunk类型：从入门到精通

昇腾多模态推理实战：MindIE SD优化Wan2.1模型部署全解析

手把手教你用cv2.resize搞定多尺寸图像批量处理（Python+OpenCV实战）

Open NSynth Super软件架构：openFrameworks音频应用深度剖析

Conform与Valibot集成：轻量级Schema验证的完美选择

kube-capacity高级用法：利用标签和污点筛选优化资源分配策略