一文完整介绍AI新范式-Harness Engineering:让AI不再“瞎跑”,软件工程的终极范式转移

张开发
2026/4/21 23:56:22 15 分钟阅读

分享文章

一文完整介绍AI新范式-Harness Engineering:让AI不再“瞎跑”,软件工程的终极范式转移
AI像一匹烈马能力惊人却难以驾驭。 Harness Engineering正在为这匹野马套上缰绳让人类从“码农”变成“驯马师”。AI时代一天一个概念一月一个热点当前最新的当红炸子鸡是——Harness Engineering。2月5日HashiCorp联合创始人Mitchell Hashimoto在一篇博客中将AI辅助开发中一种正在被越来越多顶尖团队采用的工程实践正式命名。六天后OpenAI发布了一份实验报告披露了一个震撼业界的数字3人团队5个月零行手写代码交付了百万行生产级产品。短短一个月内Harness Engineering从一篇博客变成了开发者社区的高频词。这不是又一个昙花一现的技术热词而是一场正在发生的软件工程范式革命。01 从“画皮”到“造骨架”AI工程化的三次进化要理解Harness Engineering为何诞生需要先回顾AI工程化的演进轨迹。第一阶段提示词工程2023-2024核心问题是“怎么跟AI说话”。Few-shot、Chain-of-Thought、角色扮演……开发者们像巫师一样雕琢咒语试图从黑盒中诱导出正确答案。但这一阶段的本质是“画皮”——单次交互、无状态、高度依赖个人经验更像是手艺而非工程。第二阶段上下文工程2025核心问题进化为“AI应该看到什么”。RAG、记忆管理、信息流组织成为核心能力。Shopify CEO Tobi Lutke曾评价“我真的很喜欢context engineering这个词它更好地描述了核心技能——为任务提供让LLM有可能解决它的全部上下文的艺术”。但当AI从chatbot进化为能够自主执行多步骤长任务的Agent时问题再次暴露上下文被填满就忘事出了错不知道回退自我评估永远都是“我做得很好”。这些不是模型本身的问题而是执行环境的问题。于是第三阶段Harness Engineering2026—应运而生。02 什么是Harness一匹马的比喻讲透一切“Harness”的本意是马具——马鞍、缰绳、挽具。这个翻译其实把意思讲得太到位了。一匹没有马具的野马力气再大你也坐不上去更别说让它按你指定的路线跑完全程搞不好还会把你掀下去摔个半死。马具不提供动力它只干四件事管方向、管节奏、管安全保证马在极速奔跑时不翻车。放到AI语境里AI 是那匹有力的野马Harness就是套在它身上的缰绳和鞍具。更工程化的定义是Harness是包裹在AI模型周围的基础设施专门用来管理AI的长期复杂任务。它负责给Agent提供预设上下文、标准化工具调用、生命周期管理以及任务规划、文件访问、子Agent管理等能力。换个操作系统的类比Agent是运行的进程Harness就是操作系统的内核调度系统。一个进程能做成什么事不完全是进程自己的代码决定的——内存怎么分配、IO怎么调度、跑崩了怎么处理这些都是内核调度的事。Harness解决的正是Agent版的“裸奔问题”。03 为什么需要HarnessAI“三宗罪”驱动Harness诞生的是当前AI智能体的三大核心短板1. 上下文焦虑AI模型受限于有限的上下文窗口无法记忆和处理长期的、复杂的项目历史。OpenAI在早期实验中曾试图给Agent提供一本“千页说明书”结果适得其反——巨大的指令文件挤占了任务和代码的上下文空间导致Agent注意力被稀释无法区分优先级。2. 易错性与不稳定性大语言模型本质上是基于概率的非确定性系统而真实的商业世界要求的是确定性结果。即使能力在增强执行却变得不可预测——同一任务可以一次成功但难以稳定复现。3. 缺乏工程纪律AI智能体本身不具备软件工程中的架构意识、规范意识和长期可维护性意识。它们生成的代码可能风格不一、结构混乱无法遵循复杂的项目约束。Harness的出现不是为了“修复”大模型本身而是通过外部系统工程的方式为AI智能体“戴上缰绳”引导其在正确的轨道上运行。04 实证当Harness被“榨干”奇迹发生了OpenAI三个人五个月一百万行代码2025年8月下旬OpenAI的一个工程团队开始了一项激进的实验构建一款软件产品没有一行代码是人工编写的。一个最初3人的团队后扩展到7人利用Codex智能体在5个月内生成了超过100万行生产级代码合并了约1500个Pull Request。每人每天平均能推进3.5个PR而PR的执行环节实现、测试、文档、CI配置全程由智能体代劳。过程中的关键教训“答案几乎从来不是‘再试一次’这里唯一的推进方式就是让Codex去完成工作人类工程师通常会退一步问自己到底缺了什么能力怎样把它变得对智能体既清晰可见又可以被强制执行”LangChain只改环境排名从第30飙到第5LangChain的编码Agent在Terminal Bench 2.0基准测试上通过仅优化Agent运行的外部环境——文档结构、验证回路、追踪系统——**排名从全球第30位跃升至第5位得分从52.8%飙到66.5%**。底层模型一个参数都没改。安全研究员的神奇发现安全研究员Can Boluk仅仅改变了Agent的代码编辑格式Grok Code Fast 1的基准得分就从6.7%跃升至68.3%。这些案例证明了一个核心结论在AI Agent编码领域决定结果好坏的最大变量往往不是模型有多聪明而是模型被放在了一个什么样的环境里。这个“环境”就是Harness。05 设计的智慧Harness的六大核心原则一个设计精良的Harness系统遵循以下设计原则1. 确定性约束Harness系统本身必须是高度确定和可靠的。通过引入静态代码分析工具、类型检查器、API契约和严格的自动化测试为AI的创造性输出设定一个“确定性的边界”。AI可以在这个边界内自由发挥但任何越界行为都会被Harness系统捕获并修正。2. 分而治之与子Agent隔离复杂的任务需要被分解成更小、更易于管理的子任务分配给专门的、功能隔离的子Agent。这种隔离确保了不同任务之间的干扰最小化使得对每个环节的控制和验证更加容易。3. 闭环反馈与迭代修正这是Harness的核心机制之一。AI的每一次输出都必须经过Harness的验证护栏。验证结果会被格式化成结构化的反馈信息自动输入到AI的下一轮迭代中形成“生成-验证-反馈-修正”的快速闭环直到输出满足预设的质量标准。4. 工具精简与赋能原则是“少即是多”——只提供完成任务所必需的最小化工具集以降低AI的学习成本和决策复杂度。同时确保工具调用的安全通常通过在沙箱环境中执行来实现。5. “推理三明治”架构在任务规划和最终决策等需要高度推理能力的关键节点调用最强大、最昂贵的LLM而在生成具体代码块或执行原子任务等环节则使用推理能力稍弱但成本更低的模型。这种结构化分工能够在保证任务质量的同时极大地优化经济成本。6. 反直觉的“减法思维”鉴于大型语言模型的进化速度极快Harness的设计应避免过度工程化和僵化的控制流。一个好的Harness系统应该是有弹性的能够轻松适配未来更强大的AI模型。这意味着在设计时要敢于做“减法”专注于提供核心的约束、验证和反馈能力而不是试图用复杂的逻辑代码去预设AI的每一步行为。06 范式转移从“指令式编程”到“意图导向驾驭”Harness Engineering的出现标志着软件工程范式的深刻变革。传统范式指令式编程工程师需要精确地告诉计算机“如何做”。他们编写一行行的代码定义每一个步骤、每一个逻辑分支和每一个数据结构。新范式意图导向驾驭工程师的角色发生了根本性转变。他们不再关注“如何做”的微观细节而是聚焦于定义“做什么”和“完成的标准是什么”。人类工程师的核心工作变为设计环境——构建和配置Harness系统定义项目架构、编码规范、测试标准等约束条件明确意图——将高层次的业务需求转化为AI可以理解的、清晰明确的任务目标和边界构建反馈循环——设计自动化的验证机制并将验证结果结构化地反馈给AI在这种新范式下人类工程师从“代码工人”转变为“系统建筑师”和“AI教练”。工作的重心从编写确定性代码转移到设计和维护一个能够驾驭不确定性AI的确定性系统。Mitchell Hashimoto对Harness Engineering的核心定义只有一句话“It is the idea that anytime you find an agent makes a mistake, you take the time to engineer”——每当你发现Agent犯错你就花时间去工程化地解决它。07 尾声Harness是AI时代的控制系统2026年被称为“AI元年”标志AI从惊艳演示迈向工程化落地。行业的焦点正在从“模型能力竞赛”转向“系统级智能落地”。模型决定能力的上限而系统决定结果是否可复现。正如工业革命需要飞轮调速器和安全阀信息革命需要操作系统和编程语言AI革命同样需要一套完整的驾驭系统。Harness Engineering定义了模型能看到什么、能用什么工具、失败时该怎么办——整个运行环境管控系统让Agent可靠、安全地完成任务。当你的客厅里来了一条龙你需要的不是更粗的铁链而是一套完整的驾驭系统。这就是Harness Engineering。关注【AI时代原住民】带你读懂AI时代的每一次范式革命。Harness 相关文章AI新范式——AI Harness 解读OpenAI 用百万行代码证明系统比模型更重要AI Harnesss范式深度解读AI Agent 设计新范式--抛弃WorkFlow拥抱Ralph Loop

更多文章