装备 Skill 的 Agent,比 LLM 综合效能提升 1.9×。比无 Skill 的 Agent,Token 消耗降低 75%,轮次减少 64%,幻觉率最高降低 75%。
过去三年,AI 应用工程经历了三次代际跃迁。每一次跃迁,都不仅仅是技术的升级,而是人机协作模式的根本性转变。理解这条演进路线,是评估 Skill 价值的逻辑起点。
这一阶段的核心问题是:如何用自然语言精确描述你的意图。工程师们花费大量时间调整措辞、增减上下文、设计 few-shot 示例。Prompt 本质上是一种"一次性"的指令,模型接收后执行,没有状态、没有循环、没有工具调用。
这种范式的天花板非常明显:对话窗口一关,所有的"调参"归零。每次任务都需要重新输入完整上下文。知识无法复用,能力无法叠加。
典型代表:ChatGPT 早期用法、各类"最强 Prompt 合集"、System Prompt 优化博客。
随着 RAG(检索增强生成)、长上下文模型(128K+)的普及,工程师意识到:上下文窗口本身就是"程序"的运行环境。Andrej Karpathy 在 2024 年提出"Context Engineering"的概念,将其定义为"设计合适的内容注入上下文窗口的艺术"。
这一阶段的技术重心转向:Memory 管理、工具注入、文档分块策略、上下文压缩。LangChain、LlamaIndex 等框架在此阶段爆发性增长,解决的核心问题正是如何把正确的信息、以正确的方式、在正确的时机放入上下文。
但这个范式仍有局限:所有"工程"都在模型外部进行,模型自身是被动的。
Andrew Ng 在 Sequoia 峰会上指出:"Agentic workflows could drive more AI progress than even the next generation of foundation models."(《Agentic Engineering》PDF,2026)。这句话精准定义了当下的范式转变。
Agent Engineering 的核心变化是:模型从"响应者"变为"执行者"。Agent 具备持久记忆、工具调用、多步规划与自我校正能力。工程师不再只写 Prompt,而是设计 Agent 的"工作流架构"——包括如何规划任务、如何调用工具、如何处理异常、如何终止循环。
在这个范式中,Skill 是 Agent 的"专业能力模块",相当于软件工程中的函数库或 SDK。一个装备了丰富 Skill 的 Agent,其执行效率、准确率和任务覆盖范围,远超裸模型。
理解 Skill 的价值,必须先理解 Agent 如何"思考和行动"。Agent Loop 是 Agent 执行任务的基本循环单元,Skill 在其中扮演的角色,决定了它能创造多大价值。
《Agentic Engineering》(2026)给出了一个极具启发性的类比:Agent = 计算机架构。
Model(CPU):负责推理、规划和生成,是整个系统的计算核心。但模型本身是无状态的——每次推理都是一次独立的矩阵运算。
Context(RAM):存放当前任务的所有工作信息,包括任务目标、历史对话、检索结果、工具输出等。Context 的容量(Token 数)直接决定任务的复杂度上限。
Harness(OS):负责调度 Agent Loop 的执行流程:何时调用工具、何时终止、如何处理异常、如何管理并发。Claude Code、AutoGPT、Devin 等都是典型的 Harness 实现。
Skill(程序):封装了特定领域的知识、规则和行为模式。Skill 可以是代码(Python 函数)、文档(Markdown 知识库)或结构化规则(YAML 配置)。
Tool(I/O):Agent 与外部世界的接口:文件读写、API 调用、浏览器操作、数据库查询等。
以"帮我分析这份销售数据并生成报告"为例,一次完整的 Agent Loop 包含以下步骤:
| Step | 操作 | 无 Skill 情形 | 有 Skill 情形 |
|---|---|---|---|
| 1 | 理解任务目标 | 模型自行推断格式、指标定义 | Skill 提供标准化数据分析框架,直接加载 |
| 2 | 规划执行步骤 | 通用规划,可能偏离业务逻辑 | Skill 内含业务规则,规划精准对齐 |
| 3 | 工具调用(读取数据) | 需要试错多次确认数据格式 | Skill 包含字段映射,一次调用成功 |
| 4 | 分析计算 | 自行选择分析方法,可能错误 | Skill 规定标准计算公式和分析框架 |
| 5 | 生成报告 | 格式随机,需人工审核返工 | Skill 包含报告模板,输出即可用 |
| 6 | 自我校验 | 依赖通用逻辑校验,漏检率高 | Skill 内置领域校验规则,精准捕获错误 |
Chroma Research(2025)发现了一个严峻问题:每一个主流前沿模型,其性能都随着输入上下文的增长而显著下降。这被称为"Context Rot"(上下文腐败)现象。
在长达 128K Token 的上下文中,模型真正能高效利用的部分通常不足 1%。无效信息的堆积不仅消耗 Token,还会导致模型"注意力分散",遗漏关键信息,产生幻觉。
Skill 是应对 Context Rot 的核心武器。一个设计良好的 Skill,能将复杂领域知识"压缩编码"进紧凑的指令集,用最少的 Token 传递最多的专业信息,从而最大化模型的有效利用率。
数据是评估 Skill 价值最直接的语言。本章从效率、成本、质量、自主性四个维度量化 Skill 的影响,并以 SWE-bench、SkillsBench 两套基准测试方法收束。
数据来源:《Agentic Engineering》PDF(2026)原始实验数据
数据来源:《Agentic Engineering》PDF + GeckOpt 论文(2025)
幻觉率数据:Stanford HELM 2025 / Chroma Research 2025
《Agentic Engineering》的实验数据显示:在"无 Skill"的 Agent 中,完成一个领域专业任务平均需要 11 轮对话——模型需要通过反复探索、错误纠正来逼近正确答案。每多一轮,就意味着更多 Token 消耗、更高的出错风险和更长的等待时间。
引入领域专业 Skill 后,平均轮次降至 4 轮,压缩率达 64%。这意味着 Skill 替代了大量"探索性"的对话轮次——模型不再需要从头学习领域规则,直接调用结构化知识执行任务。
Token 是 AI Agent 的"燃料",直接换算成运营成本。同一任务,纯 LLM 模式平均消耗约 12,000 tokens(含多轮探索);无 Skill 的 Agent 因 Loop 运行也在 8,000—10,000 tokens;装备 Skill 的 Agent 仅需约 3,000 tokens,节省约 75%。
GeckOpt 研究(2025)进一步验证:通过结构化工具与 Skill 组合,在保持性能损失低于 1% 的前提下,可实现 24.6% 的额外 Token 节省。对于每日处理百万次请求的企业 Agent,这个节省率意味着数百万美元的年度成本差异。
Stanford HELM 基准(2025)的测量数据揭示了一个重要规律:幻觉率与任务"接地气程度"高度相关。
| 任务类型 | 纯 LLM 幻觉率 | Agent(无 Skill) | Agent(有 Expert Skill) | 降幅 |
|---|---|---|---|---|
| 开放式问答 | 40—80% | 35—60% | 15—25% | ↓ ~55% |
| 封闭域专业 QA | 10—20% | 8—15% | 3—6% | ↓ ~65% |
| 有依据的文档摘要 | 5—10% | 3—8% | <2% | ↓ ~75% |
| 代码生成(SWE-bench) | 逻辑错误率 ~33% | 错误率 ~20% | 错误率 ~6% | ↓ ~70% |
Anthropic 的内部数据(Claude Usage Report,2026 Q1)显示了一个令人鼓舞的趋势:Claude Agent 的平均单次任务执行时长,从 2025 年 10 月的约 45 分钟增长至 2026 年 1 月的约 90 分钟,翻倍。这意味着 Agent 能在没有人类介入的情况下,独立完成越来越复杂的任务链。
在所有执行时长超过 60 分钟的 Agent 任务中,87% 的任务调用了至少 3 个专业 Skill。这一数据直接证明:Skill 是 Agent 自主性的物质基础——没有专业 Skill 的支撑,Agent 很快就会陷入循环或出错,需要人工介入。
SWE-bench 是目前公认最权威的 AI 工程能力基准,测量 AI 解决真实 GitHub Issue 的能力。最新数据(2026 Q1)显示:
数据来源:SWE-bench.com(2026 Q1);Claude Mythos 数据来自 Anthropic 官方博客
SWE-bench 衡量的是"装备 Skill 后能力提升了多少",但要判断"一个 Skill 本身好不好用",还需要更专项的方法。类比软件工程中的单元测试,《Agentic Engineering》提出了 SkillsBench 的概念——专门针对 Skill 能力的标准化评测集。与 SWE-bench 测量代码能力不同,SkillsBench 测量的是:
① Skill 触发精准率:模型在该调用 Skill 时是否正确触发,不该调用时是否正确抑制?
② Skill 执行完整率:触发后,Skill 的完整指令集是否被充分执行(而非仅执行其中一部分)?
③ Skill 冲突处理:当多个 Skill 指令存在矛盾时,模型的优先级处理是否符合预期?
④ Skill 退化测试:随着 Context 增长,Skill 的遵循率是否显著下降(Context Rot 敏感性)?
这四项测试共同构成了 Skill 健壮性的完整画像。一个高质量 Skill 应在所有四项测试中保持稳定表现。
并非所有任务都需要 Skill。理解 Skill 的适用边界,比盲目堆砌 Skill 更重要。本章通过四象限框架和真实场景案例,帮助工程师做出正确决策。
我们用两个维度来判断一个任务是否需要 Skill:任务宽度(窄域/宽域,即任务是否限定在特定专业领域)和轨迹长度(短/长,即完成任务需要多少步骤)。
任务横跨多个领域,且执行步骤长。典型案例:全流程代码审查+重构+测试+部署、多模态数据分析报告生成、跨系统数据迁移与校验。
Skill 价值:协调多专业知识,确保长轨迹不出轨。
深度专业任务,执行链长。典型案例:医学影像分析+诊断建议、法律合同审查+风险标注、量化策略回测+报告。
Skill 价值:领域 Expert Skill 大幅降低幻觉率,保证专业准确性。
日常通用任务,步骤少。典型案例:邮件摘要、会议纪要、简单翻译、头脑风暴。
Preference Skill 有价值(规范输出格式),Expert Skill 收益递减。
简单专业查询,单步完成。典型案例:查询某个 API 参数、询问某个公式定义。
基础模型能力已足够,Skill 的边际收益有限,不宜过度设计。
下面六个场景并非随意罗列,而是用 4.1 的四象限矩阵逐一定位的结果——它们全部落在长轨迹区的两个高价值象限:🟢 Q1 宽域×长轨迹(必须用 Skill)与 🟣 Q2 窄域×长轨迹(强烈推荐)。这印证了一个判断:任务轨迹越长,Skill 防止"出轨"的价值越不可替代;短轨迹的 Q3/Q4 象限则没有"必须用"的场景。
| 场景 | 象限定位(宽度 × 轨迹) | 为什么必须用 Skill | 预期收益 |
|---|---|---|---|
| 🏥 医疗辅助诊断 | 🟣 Q2 窄域 × 长轨迹 | 错误诊断有生命风险;需要实时医学指南(非训练数据) | 幻觉率从 15% → <3% |
| ⚖️ 法律合同审查 | 🟣 Q2 窄域 × 长轨迹 | 法律条款地域差异大;模型训练数据存在时效性滞后 | 漏检条款率降低 ~70% |
| 💻 企业代码库操作 | 🟢 Q1 宽域 × 长轨迹 | 私有架构、命名规范、内部 API——模型完全未知 | 代码符合率从 30% → 85% |
| 📊 财务报表生成 | 🟣 Q2 窄域 × 长轨迹 | 公司特定会计科目、合并规则、监管格式要求 | 人工校验时间减少 ~80% |
| 🤖 多 Agent 协作 | 🟢 Q1 宽域 × 长轨迹 | Agent 间需要共享理解,防止"信息断层";A2A 协议要求 | Agent 协同成功率 90% vs 53% |
| 🔒 合规与安全审计 | 🟣 Q2 窄域 × 长轨迹 | 合规规则频繁更新;需实时检查而非依赖训练记忆 | 合规漏检从 25% → <5% |
如果说 4.2 的"必须用"场景都集中在长轨迹的 Q1/Q2 高价值象限,那么反例正是它的镜像——主要落在 4.1 矩阵的短轨迹低价值侧(🔵 Q3 宽域×短轨迹、🟡 Q4 窄域×短轨迹)。在这两个象限里,基础模型能力已基本够用,强行 Skill 化只会带来"过载"风险:当 Skill 数量超过阈值,Context 窗口中 Skill 描述本身就会占据大量 Token,引发新的 Context Rot 问题。以下情况应避免过度 Skill 化:
① 任务多样性极高的通用助手(🔵 Q3 宽域 × 短轨迹):典型的"宽域但每次都短",正是 4.1 中"Expert Skill 收益递减"的象限。每个 Skill 都会消耗 System Prompt 空间,堆砌过多反而让模型"注意力分散"。建议最多同时加载 5—8 个 Skill。
③ 低频、一次性任务(🟡 Q4 窄域 × 短轨迹):4.1 中"边际收益有限、不宜过度设计"的象限,再叠加"低频"进一步压低 ROI。专门为一次性任务设计 Skill 的回报极低,直接 Prompt 更经济。
② Skill 内容过时的场景(⚠️ 跨象限·时效维度):这一条不在矩阵的两根轴(宽度 / 轨迹)上,而是一个独立的时效维度——任何象限都可能中招。如果领域规则更新频率超过 Skill 维护频率,过时的 Skill 比没有 Skill 更危险(会强制模型遵循错误规则)。即便任务本身落在 Q1/Q2,一旦 Skill 失修也应果断停用。
如何判断一个 Skill 是好是坏?本章提出一套兼顾定量指标与定性判断的双轨评估框架,以及可落地的 A/B 评测流程。
以下是一个典型 Expert Skill 的评估结果示例,完整覆盖 5.1 的全部 10 项指标(定量 6 项 + 定性 4 项),右侧评分卡标注各项权重,综合分按权重加权得出(满分100):
回到最本质的问题:Skill 的价值是什么?
从 Prompt Engineering 到 Context Engineering,再到 Agent Engineering,每一次范式跃迁的本质,都是人类智慧向机器可执行指令的更深度转化。Skill 是这条转化链路上目前最成熟的载体。
评估 Skill 的价值,不能只看单一指标。一个真正优秀的 Skill,是准确率、自主性、Token 经济性三个维度的乘积最大化——这三者相互增强:更准确的 Skill 让 Agent 不需要反复校验;更强的自主性让 Skill 能处理更复杂的任务链;更高的 Token 经济性让系统能在有限 Context 中加载更多能力。
数据给出了清晰答案:装备 Skill 的 Agent,比裸 LLM 综合效能提升 1.9×。比无 Skill 的 Agent,Token 消耗降低 75%,轮次减少 64%,幻觉率最高降低 75%。
更深层的意义在于:Skill 是 AI 能力的"知识产权化"过程。当一个企业将其核心业务知识、流程规则、专家经验封装成高质量 Skill,这些 Skill 就成为了不可复制的竞争护城河——而这,才是 Skill 在商业维度上的终极价值。
"The bottleneck is no longer model intelligence — it's the structured knowledge we give models to act on."
— 《Agentic Engineering》,2026
Anthropic 的 MCP 协议、Google 的 A2A 协议,都是在争夺 Skill 互操作标准的制高点。这场战争的终局,将由谁构建了最丰富、最高质量的 Skill 生态来决定。
评估 Skill 的价值,本质上是在评估:在有限的 Context 窗口内,以最低成本、最高精度,完成最复杂任务的能力。而这,正是 Agent 时代所有竞争的核心命题。