阿里：智能体轨迹并行蒸馏迁移技能

张开发

• 2026/4/19 17:17:03 • 15 分钟阅读

分享文章

标题Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills来源arXiv, 2603.25158v3摘要为大型语言模型LLM智能体配备特定于领域的技能对于处理复杂任务至关重要。然而手动编写会造成严重的可扩展性瓶颈。相反自动化技能生成通常会产生脆弱或碎片化的结果因为它要么依赖于浅层参数知识要么顺序过度拟合不可泛化的局部经验教训。为了克服这一点我们引入了Trace 2Skill一个反映人类专家如何创作技能的框架通过全面分析广泛的执行经验然后将其提炼成一个单一的全面的指南。而不是按顺序反应个别轨迹Trace 2Skill派遣一个并行的子代理舰队来分析不同的执行池。它提取轨迹-Trace 2Skill支持深化现有的人类书写技能并从头开始创建新的技能。在具有挑战性的领域进行实验如电子表格VisionQA和数学推理显示Trace 2Skill在强大的基线上有了显著的改进包括Anthropic的官方xlsx技能。至关重要的是这种基于语义的进化不仅仅是记住任务实例或模型特定的怪癖进化的技能跨越LLM规模转移并推广到OOD设置。例如Qwen3.5- 35 B在其自身轨迹上进化的技能使Qwen3.5- 122 B代理在WikiTableQuestions上的绝对百分比提高了57.65个百分点。进一步的分析证实并行整合优于在线顺序编辑和基于检索的经验银行。最终我们的结果表明复杂的代理经验可以打包成高度可转移的声明性的技能-不需要参数更新没有外部检索模块并利用小至35 B参数的开源模型。️文章简介研究问题如何让大语言模型代理自动获取可迁移的领域专用技能避免手动编写技能的扩展瓶颈和现有自动化方法产生的脆弱碎片化结果主要贡献论文提出Trace2Skill框架通过并行分析多样执行轨迹并层次化整合经验教训生成可跨模型规模和任务领域迁移的高质量声明式技能。重点思路轨迹生成阶段利用冻结参数的智能体在初始技能指导下并行运行收集包含成功与失败案例的大规模执行轨迹池。并行多智能体补丁提议部署专门的成功分析师和错误分析师子智能体集群独立处理单条轨迹基于因果分析提出针对性的技能修改补丁。无冲突分层合并采用分层合并策略将所有独立提出的补丁同时整合利用程序化冲突检测和归纳推理提取高频通用模式剔除特异性噪声形成单一连贯的技能文档。双模式支持该框架既支持在人类专家编写的技能基础上进行深化增强也支持从仅含参数知识的弱草稿开始从零创建有效技能。分析总结实验表明经 Trace2Skill 演化的技能具有极强的泛化性由小模型35B生成的技能不仅能提升自身表现还能使大模型122B在分布外任务上的性能提升高达 57.65%。并行 consolidation 机制显著优于在线顺序编辑方法不仅在电子表格、数学推理等任务上取得更高准确率还将计算耗时从小时级降低至分钟级。相较于基于检索的经验库方法蒸馏后的声明式技能文档避免了检索偏差和上下文竞争问题在跨域任务中表现出更稳定的性能增益。引入交互式多轮代理进行错误分析比单次调用大模型更能准确定位根本原因生成的补丁具有更强的可迁移性和鲁棒性。个人观点论文模拟人类专家“先广泛观察后归纳总结”的认知过程成功将具体的轨迹经验抽象为通用的标准操作程序SOP解决了经验学习中过度拟合特定轨迹的难题。附录

阿里：智能体轨迹并行蒸馏迁移技能

最新文章

比官方便宜一半以上！Midjourney API 申请及使用

云容笔谈·东方红颜影像生成系统：利用STM32CubeMX配置网络通信与AI应用框架

Spark大数据分析实战【1.1】

【Nginx 0day漏洞应急指南：两种升级策略与实战操作详解】

DoL汉化美化整合包构建指南：5分钟掌握自动化打包技巧

3步构建个人数字图书馆：番茄小说下载器的离线阅读解决方案

推荐文章

从零上手CH340G：USB转串口芯片的实战应用指南

别再手动算周期了！用STM32CubeMX的TIM1输入捕获测按键时长（附完整代码）

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

集合（ArrayList）

防止SQL注入的运维实践_实时清理数据库缓存与历史记录

MySQL Explain 执行计划性能对比

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

Nanbeige像素冒险聊天终端5分钟快速部署：复古游戏风AI对话一键搭建

FPGA分频实战：从仿真到上板，你的偶数分频代码真的省资源吗？（Vivado综合报告分析）

快速上手微软Phi-3模型：PHI-3 PIXEL QUEST开箱即用指南

如何用PageAdmin CMS和阿里云快速搭建一个网站？完整步骤教程

ExBody2表现性控制进阶：动态稳定性与运动风格化

从部署到落地：Hunyuan OCR与Z-Image-Turbo在NPU平台上的实战效能解析

Stata中的F检验如何助力模型优化？从基础操作到高级应用全解析

微服务治理实践

Tiktokenizer深度解析：3个技术挑战如何塑造完美的Token可视化工具

终极指南：如何用BallonsTranslator实现漫画翻译自动化？

Bugku MISC TLS流量分析实战：从加密流量中提取隐藏Flag

终极指南：3个简单步骤掌握Python大麦网自动化抢票技巧