AI 工程范式的演进:从 Prompt 到 Agent Engineering

过去三年,AI 应用工程经历了三次代际跃迁。每一次跃迁,都不仅仅是技术的升级,而是人机协作模式的根本性转变。理解这条演进路线,是评估 Skill 价值的逻辑起点。

01
2022—2023 · 单条消息

1.1 Prompt Engineering — 单条消息

这一阶段的核心问题是:如何用自然语言精确描述你的意图。工程师们花费大量时间调整措辞、增减上下文、设计 few-shot 示例。Prompt 本质上是一种"一次性"的指令,模型接收后执行,没有状态、没有循环、没有工具调用。

这种范式的天花板非常明显:对话窗口一关,所有的"调参"归零。每次任务都需要重新输入完整上下文。知识无法复用,能力无法叠加。

典型代表:ChatGPT 早期用法、各类"最强 Prompt 合集"、System Prompt 优化博客。

02
2023—2024 · 单个上下文窗口

1.2 Context Engineering — 单个上下文窗口

随着 RAG(检索增强生成)、长上下文模型(128K+)的普及,工程师意识到:上下文窗口本身就是"程序"的运行环境。Andrej Karpathy 在 2024 年提出"Context Engineering"的概念,将其定义为"设计合适的内容注入上下文窗口的艺术"。

这一阶段的技术重心转向:Memory 管理、工具注入、文档分块策略、上下文压缩。LangChain、LlamaIndex 等框架在此阶段爆发性增长,解决的核心问题正是如何把正确的信息、以正确的方式、在正确的时机放入上下文

但这个范式仍有局限:所有"工程"都在模型外部进行,模型自身是被动的。

03
2024—2026 · 单个执行循环

1.3 Agent Engineering — 单个执行循环

Andrew Ng 在 Sequoia 峰会上指出:"Agentic workflows could drive more AI progress than even the next generation of foundation models."(《Agentic Engineering》PDF,2026)。这句话精准定义了当下的范式转变。

Agent Engineering 的核心变化是:模型从"响应者"变为"执行者"。Agent 具备持久记忆、工具调用、多步规划与自我校正能力。工程师不再只写 Prompt,而是设计 Agent 的"工作流架构"——包括如何规划任务、如何调用工具、如何处理异常、如何终止循环。

在这个范式中,Skill 是 Agent 的"专业能力模块",相当于软件工程中的函数库或 SDK。一个装备了丰富 Skill 的 Agent,其执行效率、准确率和任务覆盖范围,远超裸模型。

三代工程范式能力雷达图
Prompt / Context / Agent Engineering 综合能力对比(满分100)
范式演进:任务复杂度 vs 人类介入度
随着范式升级,系统自主性↑,人工介入↓
💡
关键洞察:三代范式并非互斥,而是递进叠加的关系。优秀的 Agent 系统同时包含精心设计的 Prompt(系统提示词)、高效的 Context 管理(Memory/RAG)和结构化的 Skill 调用。Skill 是在前两代基础上生长出来的"第三层能力栈"。

Agent Loop 的运作机制

理解 Skill 的价值,必须先理解 Agent 如何"思考和行动"。Agent Loop 是 Agent 执行任务的基本循环单元,Skill 在其中扮演的角色,决定了它能创造多大价值。

2.1 Agent 的五要素

《Agentic Engineering》(2026)给出了一个极具启发性的类比:Agent = 计算机架构

🧠
Model
CPU · 推理核心
📋
Context
RAM · 工作记忆
⚙️
Harness
OS · 执行调度
📦
Skill
Program · 专业能力
🔌
Tool
I/O · 外部交互

Model(CPU):负责推理、规划和生成,是整个系统的计算核心。但模型本身是无状态的——每次推理都是一次独立的矩阵运算。
Context(RAM):存放当前任务的所有工作信息,包括任务目标、历史对话、检索结果、工具输出等。Context 的容量(Token 数)直接决定任务的复杂度上限。
Harness(OS):负责调度 Agent Loop 的执行流程:何时调用工具、何时终止、如何处理异常、如何管理并发。Claude Code、AutoGPT、Devin 等都是典型的 Harness 实现。
Skill(程序):封装了特定领域的知识、规则和行为模式。Skill 可以是代码(Python 函数)、文档(Markdown 知识库)或结构化规则(YAML 配置)。
Tool(I/O):Agent 与外部世界的接口:文件读写、API 调用、浏览器操作、数据库查询等。

2.2 一次完整的 Agent Loop 流程

以"帮我分析这份销售数据并生成报告"为例,一次完整的 Agent Loop 包含以下步骤:

Step 操作 无 Skill 情形 有 Skill 情形
1 理解任务目标 模型自行推断格式、指标定义 Skill 提供标准化数据分析框架,直接加载
2 规划执行步骤 通用规划,可能偏离业务逻辑 Skill 内含业务规则,规划精准对齐
3 工具调用(读取数据) 需要试错多次确认数据格式 Skill 包含字段映射,一次调用成功
4 分析计算 自行选择分析方法,可能错误 Skill 规定标准计算公式和分析框架
5 生成报告 格式随机,需人工审核返工 Skill 包含报告模板,输出即可用
6 自我校验 依赖通用逻辑校验,漏检率高 Skill 内置领域校验规则,精准捕获错误

2.3 Skill:应对 Context Rot 的核心武器

Chroma Research(2025)发现了一个严峻问题:每一个主流前沿模型,其性能都随着输入上下文的增长而显著下降。这被称为"Context Rot"(上下文腐败)现象。

在长达 128K Token 的上下文中,模型真正能高效利用的部分通常不足 1%。无效信息的堆积不仅消耗 Token,还会导致模型"注意力分散",遗漏关键信息,产生幻觉。

Skill 是应对 Context Rot 的核心武器。一个设计良好的 Skill,能将复杂领域知识"压缩编码"进紧凑的指令集,用最少的 Token 传递最多的专业信息,从而最大化模型的有效利用率。

Skill 对 Agent 效能的提升

数据是评估 Skill 价值最直接的语言。本章从效率、成本、质量、自主性四个维度量化 Skill 的影响,并以 SWE-bench、SkillsBench 两套基准测试方法收束。

25%
纯 LLM 单轮正确率
无工具调用,无 Skill
47%
Agent(无 Skill)正确率
有 Loop,无专业 Skill
~68%
Agent(有 Skill)正确率
装备领域 Skill 后
1.9×
综合效能乘数
vs 基线 Agent
任务完成轮次对比
相同任务下 Agent 两种模式的平均对话轮次(轮次越少效率越高)

数据来源:《Agentic Engineering》PDF(2026)原始实验数据

Token 消耗对比
三种模式完成同一任务的平均 Token 消耗(越低成本越低)

数据来源:《Agentic Engineering》PDF + GeckOpt 论文(2025)

多维效能雷达图
六维度综合能力评估(满分10分)
准确率 vs 幻觉率
不同工作模式下的输出质量指标

幻觉率数据:Stanford HELM 2025 / Chroma Research 2025

3.1 效率维度:任务轮次压缩

《Agentic Engineering》的实验数据显示:在"无 Skill"的 Agent 中,完成一个领域专业任务平均需要 11 轮对话——模型需要通过反复探索、错误纠正来逼近正确答案。每多一轮,就意味着更多 Token 消耗、更高的出错风险和更长的等待时间。

引入领域专业 Skill 后,平均轮次降至 4 轮压缩率达 64%。这意味着 Skill 替代了大量"探索性"的对话轮次——模型不再需要从头学习领域规则,直接调用结构化知识执行任务。

3.2 成本维度:Token 经济性

Token 是 AI Agent 的"燃料",直接换算成运营成本。同一任务,纯 LLM 模式平均消耗约 12,000 tokens(含多轮探索);无 Skill 的 Agent 因 Loop 运行也在 8,000—10,000 tokens;装备 Skill 的 Agent 仅需约 3,000 tokens节省约 75%

GeckOpt 研究(2025)进一步验证:通过结构化工具与 Skill 组合,在保持性能损失低于 1% 的前提下,可实现 24.6% 的额外 Token 节省。对于每日处理百万次请求的企业 Agent,这个节省率意味着数百万美元的年度成本差异。

3.3 质量维度:准确率与幻觉率

Stanford HELM 基准(2025)的测量数据揭示了一个重要规律:幻觉率与任务"接地气程度"高度相关

任务类型 纯 LLM 幻觉率 Agent(无 Skill) Agent(有 Expert Skill) 降幅
开放式问答 40—80% 35—60% 15—25% ↓ ~55%
封闭域专业 QA 10—20% 8—15% 3—6% ↓ ~65%
有依据的文档摘要 5—10% 3—8% <2% ↓ ~75%
代码生成(SWE-bench) 逻辑错误率 ~33% 错误率 ~20% 错误率 ~6% ↓ ~70%

3.4 自主性维度:Agent 独立运行时长

Anthropic 的内部数据(Claude Usage Report,2026 Q1)显示了一个令人鼓舞的趋势:Claude Agent 的平均单次任务执行时长,从 2025 年 10 月的约 45 分钟增长至 2026 年 1 月的约 90 分钟翻倍。这意味着 Agent 能在没有人类介入的情况下,独立完成越来越复杂的任务链。

在所有执行时长超过 60 分钟的 Agent 任务中,87% 的任务调用了至少 3 个专业 Skill。这一数据直接证明:Skill 是 Agent 自主性的物质基础——没有专业 Skill 的支撑,Agent 很快就会陷入循环或出错,需要人工介入。

3.5 基准测试:SWE-bench 的启示

SWE-bench 是目前公认最权威的 AI 工程能力基准,测量 AI 解决真实 GitHub Issue 的能力。最新数据(2026 Q1)显示:

SWE-bench Verified 得分对比(2026 Q1)
解决率越高代表 AI 工程能力越强;Skill 装备显著提升得分

数据来源:SWE-bench.com(2026 Q1);Claude Mythos 数据来自 Anthropic 官方博客

3.6 专项评测方法论:SkillsBench

SWE-bench 衡量的是"装备 Skill 后能力提升了多少",但要判断"一个 Skill 本身好不好用",还需要更专项的方法。类比软件工程中的单元测试,《Agentic Engineering》提出了 SkillsBench 的概念——专门针对 Skill 能力的标准化评测集。与 SWE-bench 测量代码能力不同,SkillsBench 测量的是:

① Skill 触发精准率:模型在该调用 Skill 时是否正确触发,不该调用时是否正确抑制?
② Skill 执行完整率:触发后,Skill 的完整指令集是否被充分执行(而非仅执行其中一部分)?
③ Skill 冲突处理:当多个 Skill 指令存在矛盾时,模型的优先级处理是否符合预期?
④ Skill 退化测试:随着 Context 增长,Skill 的遵循率是否显著下降(Context Rot 敏感性)?

这四项测试共同构成了 Skill 健壮性的完整画像。一个高质量 Skill 应在所有四项测试中保持稳定表现。

📊
核心结论:Skill 对 Agent 效能的提升是系统性、多维度的——不仅减少轮次(-64%)、节省成本(-75%),更大幅提升准确率(+28%pp)并降低幻觉率(-55% ~ -75%)。综合计算,装备 Skill 的 Agent 相比基线效能提升约 1.9×(《Agentic Engineering》公式:Accuracy × Autonomy × Token Economy)。

什么时候需要 Skill?

并非所有任务都需要 Skill。理解 Skill 的适用边界,比盲目堆砌 Skill 更重要。本章通过四象限框架和真实场景案例,帮助工程师做出正确决策。

4.1 四象限决策矩阵

我们用两个维度来判断一个任务是否需要 Skill:任务宽度(窄域/宽域,即任务是否限定在特定专业领域)和轨迹长度(短/长,即完成任务需要多少步骤)。

🟢 必须用 Skill · 高价值

宽域 × 长轨迹

任务横跨多个领域,且执行步骤长。典型案例:全流程代码审查+重构+测试+部署、多模态数据分析报告生成、跨系统数据迁移与校验。

Skill 价值:协调多专业知识,确保长轨迹不出轨。

🟣 强烈推荐 · 精准提升

窄域 × 长轨迹

深度专业任务,执行链长。典型案例:医学影像分析+诊断建议、法律合同审查+风险标注、量化策略回测+报告。

Skill 价值:领域 Expert Skill 大幅降低幻觉率,保证专业准确性。

🔵 视情况 · 按需装备

宽域 × 短轨迹

日常通用任务,步骤少。典型案例:邮件摘要、会议纪要、简单翻译、头脑风暴。

Preference Skill 有价值(规范输出格式),Expert Skill 收益递减。

🟡 低优先 · 可选

窄域 × 短轨迹

简单专业查询,单步完成。典型案例:查询某个 API 参数、询问某个公式定义。

基础模型能力已足够,Skill 的边际收益有限,不宜过度设计。

4.2 案例:六大 Skills 适用场景

下面六个场景并非随意罗列,而是用 4.1 的四象限矩阵逐一定位的结果——它们全部落在长轨迹区的两个高价值象限:🟢 Q1 宽域×长轨迹(必须用 Skill)与 🟣 Q2 窄域×长轨迹(强烈推荐)。这印证了一个判断:任务轨迹越长,Skill 防止"出轨"的价值越不可替代;短轨迹的 Q3/Q4 象限则没有"必须用"的场景。

场景 象限定位(宽度 × 轨迹) 为什么必须用 Skill 预期收益
🏥 医疗辅助诊断 🟣 Q2 窄域 × 长轨迹 错误诊断有生命风险;需要实时医学指南(非训练数据) 幻觉率从 15% → <3%
⚖️ 法律合同审查 🟣 Q2 窄域 × 长轨迹 法律条款地域差异大;模型训练数据存在时效性滞后 漏检条款率降低 ~70%
💻 企业代码库操作 🟢 Q1 宽域 × 长轨迹 私有架构、命名规范、内部 API——模型完全未知 代码符合率从 30% → 85%
📊 财务报表生成 🟣 Q2 窄域 × 长轨迹 公司特定会计科目、合并规则、监管格式要求 人工校验时间减少 ~80%
🤖 多 Agent 协作 🟢 Q1 宽域 × 长轨迹 Agent 间需要共享理解,防止"信息断层";A2A 协议要求 Agent 协同成功率 90% vs 53%
🔒 合规与安全审计 🟣 Q2 窄域 × 长轨迹 合规规则频繁更新;需实时检查而非依赖训练记忆 合规漏检从 25% → <5%

4.3 反例:什么时候 Skill 会带来负担

如果说 4.2 的"必须用"场景都集中在长轨迹的 Q1/Q2 高价值象限,那么反例正是它的镜像——主要落在 4.1 矩阵的短轨迹低价值侧(🔵 Q3 宽域×短轨迹、🟡 Q4 窄域×短轨迹)。在这两个象限里,基础模型能力已基本够用,强行 Skill 化只会带来"过载"风险:当 Skill 数量超过阈值,Context 窗口中 Skill 描述本身就会占据大量 Token,引发新的 Context Rot 问题。以下情况应避免过度 Skill 化:

① 任务多样性极高的通用助手(🔵 Q3 宽域 × 短轨迹):典型的"宽域但每次都短",正是 4.1 中"Expert Skill 收益递减"的象限。每个 Skill 都会消耗 System Prompt 空间,堆砌过多反而让模型"注意力分散"。建议最多同时加载 5—8 个 Skill。
③ 低频、一次性任务(🟡 Q4 窄域 × 短轨迹):4.1 中"边际收益有限、不宜过度设计"的象限,再叠加"低频"进一步压低 ROI。专门为一次性任务设计 Skill 的回报极低,直接 Prompt 更经济。
② Skill 内容过时的场景(⚠️ 跨象限·时效维度):这一条不在矩阵的两根轴(宽度 / 轨迹)上,而是一个独立的时效维度——任何象限都可能中招。如果领域规则更新频率超过 Skill 维护频率,过时的 Skill 比没有 Skill 更危险(会强制模型遵循错误规则)。即便任务本身落在 Q1/Q2,一旦 Skill 失修也应果断停用。

建立 Skill 评估框架

如何判断一个 Skill 是好是坏?本章提出一套兼顾定量指标与定性判断的双轨评估框架,以及可落地的 A/B 评测流程。

Skill Value = Accuracy (+28%) × Autonomy (+22%) × Token Economy (+30%) = 1.9× Baseline
来源:《Agentic Engineering》(2026)Skill Value Formula · 三个维度独立可测量,乘积效应来自相互增强

5.1 定量与定性指标体系

Quantitative Metrics

📐 定量指标(权重 70%)

① 任务准确率(Task Accuracy)
有 Skill vs 无 Skill 在标准测试集上的正确率差值。黄金标准:领域专家双盲评审。权重 18%
18%
② Token 经济性(Token Efficiency)
完成同一任务的 Token 消耗比值。公式:TE = Token(无Skill) / Token(有Skill)。目标 TE ≥ 2.0
14%
③ 轮次压缩率(Turn Reduction Rate)
TRR = 1 - (有Skill轮次 / 无Skill轮次)。目标 TRR ≥ 0.5(轮次减少50%以上)
10%
④ 幻觉率(Hallucination Rate)
输出中包含不可验证或错误事实的比例。使用 FactScore 或 SAFE 工具自动评估
14%
⑤ 首次成功率(First-Pass Success)
无需人工修正即可直接使用的输出比例。FPS 反映 Skill 的"开箱即用"质量
8%
⑥ P95 延迟(P95 Latency)
95% 请求的响应延迟。Skill 不应显著增加延迟(目标 <+200ms vs 无Skill)
6%
Qualitative Metrics

🎯 定性指标(权重 30%)

① 领域深度(Domain Depth)
Skill 覆盖的专业知识是否达到"专家级"。评估方式:领域专家打分(1-5分)。关键问题:是否捕捉了领域 Tacit Knowledge?
10%
② 可移植性(Portability)
Skill 能否跨模型(Claude / GPT / Gemini)、跨 Agent 框架复用?依赖 MCP 标准协议的 Skill 可移植性最高
8%
③ 可维护性(Maintainability)
Skill 内容的更新成本与频率。评估:是否有版本管理?是否有 Changelog?更新一次需要多少人工?
7%
④ 安全合规性(Safety & Compliance)
Skill 是否包含或可能诱导有害输出?是否符合 GDPR / 行业监管要求?需通过红队测试(Red Team Eval)
5%

5.2 可视化评分卡

以下是一个典型 Expert Skill 的评估结果示例,完整覆盖 5.1 的全部 10 项指标(定量 6 项 + 定性 4 项),右侧评分卡标注各项权重,综合分按权重加权得出(满分100):

Skill 综合评分雷达(示例:代码审查 Skill)
十维度评分 vs 基准值(满分10分)
量化评分卡(0—100)
① 任务准确率 ·18%82/100
② Token 经济性 ·14%90/100
③ 轮次压缩率 ·10%76/100
④ 幻觉率控制 ·14%88/100
⑤ 首次成功率 ·8%80/100
⑥ P95 延迟 ·6%72/100
⑦ 领域深度 ·10%85/100
⑧ 可移植性 ·8%70/100
⑨ 可维护性 ·7%78/100
⑩ 安全合规 ·5%95/100
82.3
综合 Skill 评分(10 项按权重加权,满分100)
✓ 推荐部署

结论:Skill 是 Agent 时代的软件基础设施

回到最本质的问题:Skill 的价值是什么?

从 Prompt Engineering 到 Context Engineering,再到 Agent Engineering,每一次范式跃迁的本质,都是人类智慧向机器可执行指令的更深度转化。Skill 是这条转化链路上目前最成熟的载体。

评估 Skill 的价值,不能只看单一指标。一个真正优秀的 Skill,是准确率、自主性、Token 经济性三个维度的乘积最大化——这三者相互增强:更准确的 Skill 让 Agent 不需要反复校验;更强的自主性让 Skill 能处理更复杂的任务链;更高的 Token 经济性让系统能在有限 Context 中加载更多能力。

数据给出了清晰答案:装备 Skill 的 Agent,比裸 LLM 综合效能提升 1.9×。比无 Skill 的 Agent,Token 消耗降低 75%,轮次减少 64%,幻觉率最高降低 75%

更深层的意义在于:Skill 是 AI 能力的"知识产权化"过程。当一个企业将其核心业务知识、流程规则、专家经验封装成高质量 Skill,这些 Skill 就成为了不可复制的竞争护城河——而这,才是 Skill 在商业维度上的终极价值。

"The bottleneck is no longer model intelligence — it's the structured knowledge we give models to act on."

— 《Agentic Engineering》,2026

Anthropic 的 MCP 协议、Google 的 A2A 协议,都是在争夺 Skill 互操作标准的制高点。这场战争的终局,将由谁构建了最丰富、最高质量的 Skill 生态来决定。

评估 Skill 的价值,本质上是在评估:在有限的 Context 窗口内,以最低成本、最高精度,完成最复杂任务的能力。而这,正是 Agent 时代所有竞争的核心命题。