最新 AI 论文盘点(2026-04-12):5 篇新作看长时记忆、推理微调、可审计医疗抽取、端侧个性化与分层 RAG

张开发
2026/4/19 1:37:29 15 分钟阅读

分享文章

最新 AI 论文盘点(2026-04-12):5 篇新作看长时记忆、推理微调、可审计医疗抽取、端侧个性化与分层 RAG
最新 AI 论文盘点2026-04-125 篇新作看长时记忆、推理微调、可审计医疗抽取、端侧个性化与分层 RAG今天这批论文如果放在一起看有一条线特别明显LLM 研究正在从“会回答”往“会长期工作”迁移。这里的“长期工作”不是一句空话而是越来越具体地体现在这些问题上模型能不能在持续交互里真的记住东西而不是只会短上下文检索强老师模型蒸出来的数据为什么有时反而把学生模型带偏医疗证据抽取如果不能逐格追溯来源到底配不配进入真实工作流个性化生成是不是一定要把用户数据送上云还是可以在端侧完成RAG 如果只做“平铺式检索”是不是已经开始撞上效率和解释性的天花板这几篇论文的共同特点是它们都不满足于再做一个“更强模型”而是在认真处理系统真正落地时最容易出问题的几个环节记忆适配审计个性化检索结构我今天挑 5 篇来盘分别来自长时记忆评测、推理模型微调、医疗多智能体抽取、端侧输入法和网络安全 RAG。它们方向很散但拼在一起看反而能更清楚地看到一个趋势下一阶段 AI 系统的竞争越来越像是在比“能不能稳定地把能力组织起来”而不只是比瞬时输出有多惊艳。1MemGround长时记忆评测不能再停留在“问一句、答一句”了arXiv2604.14158标题MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios方向LLM 长时记忆 / benchmark / memory agent这篇论文首先瞄准的是一个很基础、但过去经常被忽略的问题我们到底在怎么评测大模型的“长期记忆”过去很多所谓 memory benchmark本质上都还是给一点上下文做一次检索回答一个问题这种评测当然有价值但它测到的更像是短期上下文利用简单信息回忆静态条件下的问答能力而不是持续交互中真正麻烦的那部分能力比如动态状态跟踪长时间事件关联多轮积累后的推理记忆使用轨迹到底对不对MemGround 的思路很明确就是把这件事从静态问答改成更接近持续交互的游戏化场景。它设计了一个三层结构去测Surface State MemoryTemporal Associative MemoryReasoning-Based Memory同时还不只给最终答对率而是加入了几类更像“过程指标”的度量QA OverallMFUMemory Fragments UnlockedMFCOMemory Fragments with Correct OrderETDExploration Trajectory Diagrams这篇论文最值得注意的不是它又造了一个 benchmark而是它在推动一个更现实的共识长期记忆不是把上下文窗口拉长就结束了。真正麻烦的地方在于模型要在连续环境里维持状态、连接事件、并从累计证据里做推理。作者的实验结论也不意外即使是当前 SOTA 的 LLM 和 memory agent在动态追踪、时间关联和复杂推理上仍然明显吃力。如果你在做长会话助手记忆型 Agent游戏 / 仿真交互智能体多天任务协作系统这篇论文很值得看。因为它提醒我们很多所谓“有记忆”的系统其实只是把历史塞得更多并不等于真的会持续记住。2TESSY强老师蒸出来的数据不一定适合学生模型吃arXiv2604.14164标题How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data方向推理模型微调 / synthetic data / SFT这篇论文抓的是现在推理模型训练里一个很现实的坑。大家都知道拿更强模型来合成 SFT 数据是现在非常常见的做法。直觉上也很合理老师更强老师能写出更好的推理过程学生拿这些数据继续训理应更强但作者指出这套逻辑对 reasoning model 并不总成立。尤其像 Qwen3-8B 这类学生模型直接吃强老师生成的数据有时不仅没提升反而会掉点。问题出在哪作者的判断很关键不是老师不够强而是老师生成数据的“风格分布”跟学生原本分布差得太远。也就是说学生不是单纯在学知识而是在被迫模仿一种和自己不一致的表达与推理方式。于是他们提出 TESSY。它的核心不是让老师一口气把整条数据写完而是让 teacher 和 student 交替生成不同类型的 token老师负责更偏能力和推理性的部分学生负责更贴近自身分布的 style token这样得到的数据既保留老师的高级能力又不会把学生整体分布拉得太偏。实验结果很有意思用 GPT-OSS-120B 作为 teacher直接用 teacher 数据微调 Qwen3-8BLiveCodeBench-Pro 和 OJBench 反而下降 3.25% 和 10.02%用 TESSY 后两个 benchmark 分别提升 11.25% 和 6.68%我觉得这篇论文最重要的启发是“更强的数据”不是一个抽象概念数据和模型分布是否匹配同样重要。这对当前很多蒸馏、合成数据、后训练工作都有现实意义。很多时候大家默认老师越强越好推理链越长越好数据量越大越好但这篇工作在提醒如果学生接不住这些东西不一定变成增益也可能直接变成训练噪声。3EviSearch医疗抽取系统真正缺的往往不是“会不会抽”而是“能不能审”arXiv2604.14165标题EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews方向医疗 NLP / 多智能体系统 / systematic review / provenance这篇论文我觉得非常有落地味。它做的是系统综述场景下的临床证据抽取。这类任务表面看很像“从 PDF 里抽结构化信息”但真正进到医疗工作流问题马上就不是抽不抽得出来而是你抽的每个字段能不能回溯到证据页模型和模型之间冲突时谁来仲裁医生或审稿人能不能快速检查并修正系统能不能把人工修正反过来变成下一轮监督信号EviSearch 的设计很像一种更认真版本的“多智能体 人在环”。它的关键模块包括一个 PDF-query agent保留版式、图表等原始呈现信息一个 retrieval-guided search agent负责检索和抽取一个 reconciliation 模块当两个 agent 不一致时强制做页级验证这套设计的重点非常清楚不是只追求自动化而是把可审计性和可纠错性从一开始嵌进系统。作者强调的是 per-cell provenance也就是证据表里的每一个单元格都要有可检查的出处。在一个临床医生参与构建的肿瘤论文 benchmark 上它相对强 parsed-text baseline 有明显提升同时还能提供比较完整的 attribution coverage。更有意思的是系统还会记录reconciler 的决策reviewer 的修正这样后续就能沉淀成新的偏好和监督信号用来继续迭代模型。我觉得这篇论文非常能代表一个成熟方向在高风险领域真正重要的不是“全自动”而是“自动化 可追责 可纠正”。如果你在看医疗 Agent、证据抽取、科研辅助系统这篇很值得重点关注。4HUOZIIME端侧个性化可能比很多人想象得更快落地arXiv2604.14159标题HUOZIIME: An On-Device LLM-enhanced Input Method for Deep Personalization方向端侧 LLM / 个性化输入法 / hierarchical memory这篇论文切的点很生活化但其实特别重要。输入法是用户最频繁使用、也最贴近个人习惯的 AI 入口之一。问题在于传统输入法虽然有联想和纠错但在“真正理解这个人怎么表达”这件事上一直做得很有限。而如果把更强的个性化生成放到云端又会立刻遇到两个老问题隐私延迟HUOZIIME 的目标就是把这件事尽量搬到端侧。作者提出的是一个 LLM 增强输入法核心包括先用合成个性化数据对 base LLM 做后训练设计分层记忆机制持续捕获和利用用户输入历史做面向移动端部署的系统优化保证响应速度和可运行性这篇论文有意思的地方在于它不是在讲一个“云上更强的聊天机器人”而是在讲能不能把 LLM 变成更贴身、但又不离开设备的数据层助手。这背后其实包含了几个越来越重要的趋势第一个性化会越来越从“单轮偏好”转向“长期行为习惯”真正的个性化不只是你喜欢正式语气还是口语而是你常写什么结构常用哪些词面对不同对象怎么切换表达第二端侧记忆机制会成为核心能力如果没有持续记忆端侧 AI 很难真正做到“越用越懂你”。第三端云分工会越来越细不是所有个性化都该上传也不是所有生成都要在本地完成。HUOZIIME 代表的是一种很实际的思路把最贴近用户习惯、最敏感的那部分能力尽量留在端上。如果未来 AI 真要深入个人设备这类工作很可能比很多“大而全助手”更先落地。5H-TechniqueRAGRAG 不该永远是“把所有候选一起塞进去”arXiv2604.14166标题Hierarchical Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text方向RAG / 网络安全 / 分层检索 / taxonomy-aware reasoning最后这篇论文来自网络安全文本分析但它的启发其实对很多 RAG 系统都成立。任务是把 CTICyber Threat Intelligence文本映射到 MITRE ATTCK technique IDs。这类任务的难点在于标签空间本身是有层级结构的tactic 和 technique 之间不是平铺关系如果所有候选都一次性平铺检索既浪费上下文也容易让生成阶段超载作者指出很多现有 RAG 方法的问题就在这里它们默认采用 flat retrieval把所有技术项当成同一级别处理。于是他们提出 H-TechniqueRAG核心是把 ATTCK taxonomy 直接注入检索和组织流程里第一步先识别更宏观的 tactic第二步再在对应 tactic 下细化到 technique再配合 tactic-aware reranking 和 hierarchy-constrained context organization结果很漂亮候选搜索空间减少 77.5%F1 相比 SOTA TechniqueRAG 提升 3.8%推理延迟下降 62.4%LLM API 调用减少 60%这篇论文真正值得记住的点不是“安全领域又有一个新 RAG”而是它再次说明RAG 的瓶颈很多时候不在于“检索不够多”而在于“检索结构不对”。如果底层知识本来就带有层级关系分类结构本体约束先粗后细的决策流程那把它们全都拍平再交给大模型往往既慢又不稳。这对很多领域都成立比如医疗编码法律条款匹配企业知识库问答多级商品与风险分类所以我觉得这篇论文的价值不只是任务成绩而是在提醒大家下一阶段 RAG 会越来越像“结构化检索 受约束推理”而不是单纯把更多文档塞进 context。结语如果把今天这 5 篇论文放到一起看我觉得最值得记住的一句话是AI 系统正在从“会生成”走向“会长期协作”。这里的“长期协作”包含了几层意思要会记MemGround要会适配学生模型分布TESSY要会在高风险场景里留下可审计证据EviSearch要会在设备侧持续个性化HUOZIIME要会利用知识结构而不是只会平铺检索H-TechniqueRAG这些问题看起来不像“再刷一个大榜单”那样热闹但它们更接近真实系统迟早要面对的地方。也就是说未来真正拉开差距的可能不只是模型本体而是你的系统能不能在记忆、微调、审计、个性化和检索结构上形成闭环。这才是从 demo 走向长期可用产品时最难也最值钱的部分。

更多文章