2026-04-0412 min226 views
Harness Engineering 简介
#Rag#Ai Engineering#Prompt Engineering#Context Engineering#Harness Engineering
AI Summary
每分钟最多 5 次
- Harness Engineering 引入了三层重心迁移:Prompt Engineering 专注于通过语言设计确保模型理解指令;Context Engineering 旨在整合所有相关信息以提供给模型正确的决策依据;而 Harness Engineering 则关注于在实际应用中持续正确地执行任务,包括监督、约束与纠偏。
- Harness 的六层结构 包括上下文管理、工具系统、执行编排、记忆和状态管理、评估观测以及约束校验与失败恢复,为开发者提供了从信息组织到错误处理的全链路指导框架。
- 实践案例 如 Anthropic 采用上下文重置来应对长时间任务中的信息过载问题,并通过生产验收分离提高质量控制。OpenAI 则强调工程师角色向环境设计转变,并利用渐进式信息披露及全链路验证工具增强 Agent 的自检能力。
- 核心价值 在于结合 Prompt 和 Context 工程的基础上,进一步确保了长链条任务的成功执行与稳定性,是实现复杂场景下 AI 应用不可或缺的部分。
- 开发者的角色 转变,更多地参与到定义产品目标、分析需求以及构建反馈机制等环节,而非传统意义上的编码工作,这要求开发者具备更强的设计思维和系统级视角。
Harness Engineering
AI 工程的三次重心迁移
- Prompt Engineering(提示词工程):解决模型是否听懂指令的问题,通过角色设定、风格约束、few-shot 示例等塑造局部概率空间,核心是语言设计。
- Context Engineering(上下文工程):解决模型是否获取足够正确信息的问题,整合用户输入、历史对话、检索结果等所有影响决策的信息总和,典型实践如 RAG,强调按需、分层、适时提供信息。
- Harness Engineering(驾驭工程):解决模型在真实场景中能否持续正确执行任务的问题,关注任务执行的监督、约束与纠偏,是对整个运行系统的工程化。
Harness 的六层结构
- 上下文管理:明确角色目标与定义、裁剪选择相关信息、结构化组织信息(规则、任务、状态、证据分层),确保模型在正确信息边界内思考。
- 工具系统:解决工具选择(避免工具过少能力不足或过多导致滥用)、调用时机(无需查时不乱查,需查时不硬答)、结果处理(提炼筛选工具返回结果),使模型能与真实世界交互。
- 执行编排:规划任务轨道(理解目标→判断信息是否足够→捕集结果→分析→生成输出→检查→修正 / 重试),将步骤串联以避免半成品交付。
- 记忆和状态:管理当前任务状态、对话中间结果、长期记忆和用户偏好,避免状态混乱,使 Agent 成为稳定协作者。
- 评估和观测:包含输出验收、环境验证、自动测试、日志指标、错误归因等,确保系统知道自身输出是否正确,避免自我感觉良好。
- 约束校验与失败恢复:明确约束(能做与不能做)、校验机制(输出前后检查)、恢复策略(失败后重试、切入、回滚到稳定状态),应对真实环境中的常态失败。
一线公司的 Harness 实践
- Anthropic:
- 上下文重置(Context Reset):面对长任务上下文过载问题,不压缩历史而是更换新 Agent 交接工作,类似进程重启恢复状态。
- 生产验收分离:拆分 planner(扩展需求为规格)、generator(逐步实现)、evaluator(真实测试,含页面交互检查),形成生成 - 检查 - 修复 - 再检查循环。
- OpenAI:
- 工程师角色转变:人类负责拆解产品目标为 Agent 小任务、分析环境缺失能力、建立反馈机制,无需写代码,专注环境设计。
- 渐进式披露:将庞大 Agent 规范拆分为目录 + 子文档,按需暴露信息,避免上下文窗口过载。
- 全链路验证工具:接入浏览器(截图、模拟操作)、日志指标系统(查 log、监控),独立环境运行任务,实现 Agent 自验(跑代码、看结果、修 bug)。
- 自动治理系统:将资深工程师经验转化为系统规则(模块分层、依赖限制、拦截条件、修复方案),反馈给 Agent 进入下轮上下文。
Harness 的核心价值
- Harness 包含 Prompt 和 Context 工程,在长链路、可执行、低容错真实场景中不可避免。
- 模型决定系统上限,Harness 决定落地能力与稳定交付,AI 落地挑战正从
/** Comments(0)*/
Loading comments...