Skill：Agent 不可或缺的"软件程序" — Agentic Engineering 研究报告 2026

Chapter 01

AI 工程范式的演进：从 Prompt 到 Agent Engineering

过去三年，AI 应用工程经历了三次代际跃迁。每一次跃迁，都不仅仅是技术的升级，而是人机协作模式的根本性转变。理解这条演进路线，是评估 Skill 价值的逻辑起点。

01

2022—2023 · 单条消息

1.1 Prompt Engineering — 单条消息

这一阶段的核心问题是：如何用自然语言精确描述你的意图。工程师们花费大量时间调整措辞、增减上下文、设计 few-shot 示例。Prompt 本质上是一种"一次性"的指令，模型接收后执行，没有状态、没有循环、没有工具调用。

这种范式的天花板非常明显：对话窗口一关，所有的"调参"归零。每次任务都需要重新输入完整上下文。知识无法复用，能力无法叠加。

典型代表：ChatGPT 早期用法、各类"最强 Prompt 合集"、System Prompt 优化博客。

02

2023—2024 · 单个上下文窗口

1.2 Context Engineering — 单个上下文窗口

随着 RAG（检索增强生成）、长上下文模型（128K+）的普及，工程师意识到：上下文窗口本身就是"程序"的运行环境。Andrej Karpathy 在 2024 年提出"Context Engineering"的概念，将其定义为"设计合适的内容注入上下文窗口的艺术"。

这一阶段的技术重心转向：Memory 管理、工具注入、文档分块策略、上下文压缩。LangChain、LlamaIndex 等框架在此阶段爆发性增长，解决的核心问题正是如何把正确的信息、以正确的方式、在正确的时机放入上下文。

但这个范式仍有局限：所有"工程"都在模型外部进行，模型自身是被动的。

03

2024—2026 · 单个执行循环

1.3 Agent Engineering — 单个执行循环

Andrew Ng 在 Sequoia 峰会上指出："Agentic workflows could drive more AI progress than even the next generation of foundation models."（《Agentic Engineering》PDF，2026）。这句话精准定义了当下的范式转变。

Agent Engineering 的核心变化是：模型从"响应者"变为"执行者"。Agent 具备持久记忆、工具调用、多步规划与自我校正能力。工程师不再只写 Prompt，而是设计 Agent 的"工作流架构"——包括如何规划任务、如何调用工具、如何处理异常、如何终止循环。

在这个范式中，Skill 是 Agent 的"专业能力模块"，相当于软件工程中的函数库或 SDK。一个装备了丰富 Skill 的 Agent，其执行效率、准确率和任务覆盖范围，远超裸模型。

三代工程范式能力雷达图

Prompt / Context / Agent Engineering 综合能力对比（满分100）

范式演进：任务复杂度 vs 人类介入度

随着范式升级，系统自主性↑，人工介入↓

💡

关键洞察：三代范式并非互斥，而是递进叠加的关系。优秀的 Agent 系统同时包含精心设计的 Prompt（系统提示词）、高效的 Context 管理（Memory/RAG）和结构化的 Skill 调用。Skill 是在前两代基础上生长出来的"第三层能力栈"。

Chapter 02

Agent Loop 的运作机制

理解 Skill 的价值，必须先理解 Agent 如何"思考和行动"。Agent Loop 是 Agent 执行任务的基本循环单元，Skill 在其中扮演的角色，决定了它能创造多大价值。

2.1 Agent 的五要素

《Agentic Engineering》（2026）给出了一个极具启发性的类比：Agent = 计算机架构。

🧠

Model

CPU · 推理核心

⟷

📋

Context

RAM · 工作记忆

⟷

⚙️

Harness

OS · 执行调度

⟷

📦
Skill
Program · 专业能力

⟷

🔌

Tool

I/O · 外部交互

Model（CPU）：负责推理、规划和生成，是整个系统的计算核心。但模型本身是无状态的——每次推理都是一次独立的矩阵运算。
Context（RAM）：存放当前任务的所有工作信息，包括任务目标、历史对话、检索结果、工具输出等。Context 的容量（Token 数）直接决定任务的复杂度上限。
Harness（OS）：负责调度 Agent Loop 的执行流程：何时调用工具、何时终止、如何处理异常、如何管理并发。Claude Code、AutoGPT、Devin 等都是典型的 Harness 实现。
Skill（程序）：封装了特定领域的知识、规则和行为模式。Skill 可以是代码（Python 函数）、文档（Markdown 知识库）或结构化规则（YAML 配置）。
Tool（I/O）：Agent 与外部世界的接口：文件读写、API 调用、浏览器操作、数据库查询等。

2.2 一次完整的 Agent Loop 流程

以"帮我分析这份销售数据并生成报告"为例，一次完整的 Agent Loop 包含以下步骤：

Step	操作	无 Skill 情形	有 Skill 情形
1	理解任务目标	模型自行推断格式、指标定义	Skill 提供标准化数据分析框架，直接加载
2	规划执行步骤	通用规划，可能偏离业务逻辑	Skill 内含业务规则，规划精准对齐
3	工具调用（读取数据）	需要试错多次确认数据格式	Skill 包含字段映射，一次调用成功
4	分析计算	自行选择分析方法，可能错误	Skill 规定标准计算公式和分析框架
5	生成报告	格式随机，需人工审核返工	Skill 包含报告模板，输出即可用
6	自我校验	依赖通用逻辑校验，漏检率高	Skill 内置领域校验规则，精准捕获错误

2.3 Skill：应对 Context Rot 的核心武器

Chroma Research（2025）发现了一个严峻问题：每一个主流前沿模型，其性能都随着输入上下文的增长而显著下降。这被称为"Context Rot"（上下文腐败）现象。

在长达 128K Token 的上下文中，模型真正能高效利用的部分通常不足 1%。无效信息的堆积不仅消耗 Token，还会导致模型"注意力分散"，遗漏关键信息，产生幻觉。

Skill 是应对 Context Rot 的核心武器。一个设计良好的 Skill，能将复杂领域知识"压缩编码"进紧凑的指令集，用最少的 Token 传递最多的专业信息，从而最大化模型的有效利用率。

Chapter 03

Skill 对 Agent 效能的提升

数据是评估 Skill 价值最直接的语言。本章从效率、成本、质量、自主性四个维度量化 Skill 的影响，并以 SWE-bench、SkillsBench 两套基准测试方法收束。

25%

纯 LLM 单轮正确率

无工具调用，无 Skill

47%

Agent（无 Skill）正确率

有 Loop，无专业 Skill

~68%

Agent（有 Skill）正确率

装备领域 Skill 后

1.9×

综合效能乘数

vs 基线 Agent

任务完成轮次对比

相同任务下 Agent 两种模式的平均对话轮次（轮次越少效率越高）

数据来源：《Agentic Engineering》PDF（2026）原始实验数据

Token 消耗对比

三种模式完成同一任务的平均 Token 消耗（越低成本越低）

数据来源：《Agentic Engineering》PDF + GeckOpt 论文（2025）

多维效能雷达图

六维度综合能力评估（满分10分）

准确率 vs 幻觉率

不同工作模式下的输出质量指标

幻觉率数据：Stanford HELM 2025 / Chroma Research 2025

3.1 效率维度：任务轮次压缩

《Agentic Engineering》的实验数据显示：在"无 Skill"的 Agent 中，完成一个领域专业任务平均需要 11 轮对话——模型需要通过反复探索、错误纠正来逼近正确答案。每多一轮，就意味着更多 Token 消耗、更高的出错风险和更长的等待时间。

引入领域专业 Skill 后，平均轮次降至 4 轮，压缩率达 64%。这意味着 Skill 替代了大量"探索性"的对话轮次——模型不再需要从头学习领域规则，直接调用结构化知识执行任务。

3.2 成本维度：Token 经济性

Token 是 AI Agent 的"燃料"，直接换算成运营成本。同一任务，纯 LLM 模式平均消耗约 12,000 tokens（含多轮探索）；无 Skill 的 Agent 因 Loop 运行也在 8,000—10,000 tokens；装备 Skill 的 Agent 仅需约 3,000 tokens，节省约 75%。

GeckOpt 研究（2025）进一步验证：通过结构化工具与 Skill 组合，在保持性能损失低于 1% 的前提下，可实现 24.6% 的额外 Token 节省。对于每日处理百万次请求的企业 Agent，这个节省率意味着数百万美元的年度成本差异。

3.3 质量维度：准确率与幻觉率

Stanford HELM 基准（2025）的测量数据揭示了一个重要规律：幻觉率与任务"接地气程度"高度相关。

任务类型	纯 LLM 幻觉率	Agent（无 Skill）	Agent（有 Expert Skill）	降幅
开放式问答	40—80%	35—60%	15—25%	↓ ~55%
封闭域专业 QA	10—20%	8—15%	3—6%	↓ ~65%
有依据的文档摘要	5—10%	3—8%	<2%	↓ ~75%
代码生成（SWE-bench）	逻辑错误率 ~33%	错误率 ~20%	错误率 ~6%	↓ ~70%

3.4 自主性维度：Agent 独立运行时长

Anthropic 的内部数据（Claude Usage Report，2026 Q1）显示了一个令人鼓舞的趋势：Claude Agent 的平均单次任务执行时长，从 2025 年 10 月的约 45 分钟增长至 2026 年 1 月的约 90 分钟，翻倍。这意味着 Agent 能在没有人类介入的情况下，独立完成越来越复杂的任务链。

在所有执行时长超过 60 分钟的 Agent 任务中，87% 的任务调用了至少 3 个专业 Skill。这一数据直接证明：Skill 是 Agent 自主性的物质基础——没有专业 Skill 的支撑，Agent 很快就会陷入循环或出错，需要人工介入。

3.5 基准测试：SWE-bench 的启示

SWE-bench 是目前公认最权威的 AI 工程能力基准，测量 AI 解决真实 GitHub Issue 的能力。最新数据（2026 Q1）显示：

SWE-bench Verified 得分对比（2026 Q1）

解决率越高代表 AI 工程能力越强；Skill 装备显著提升得分

数据来源：SWE-bench.com（2026 Q1）；Claude Mythos 数据来自 Anthropic 官方博客

3.6 专项评测方法论：SkillsBench

SWE-bench 衡量的是"装备 Skill 后能力提升了多少"，但要判断"一个 Skill 本身好不好用"，还需要更专项的方法。类比软件工程中的单元测试，《Agentic Engineering》提出了 SkillsBench 的概念——专门针对 Skill 能力的标准化评测集。与 SWE-bench 测量代码能力不同，SkillsBench 测量的是：

① Skill 触发精准率：模型在该调用 Skill 时是否正确触发，不该调用时是否正确抑制？
② Skill 执行完整率：触发后，Skill 的完整指令集是否被充分执行（而非仅执行其中一部分）？
③ Skill 冲突处理：当多个 Skill 指令存在矛盾时，模型的优先级处理是否符合预期？
④ Skill 退化测试：随着 Context 增长，Skill 的遵循率是否显著下降（Context Rot 敏感性）？

这四项测试共同构成了 Skill 健壮性的完整画像。一个高质量 Skill 应在所有四项测试中保持稳定表现。

📊

核心结论：Skill 对 Agent 效能的提升是系统性、多维度的——不仅减少轮次（-64%）、节省成本（-75%），更大幅提升准确率（+28%pp）并降低幻觉率（-55% ~ -75%）。综合计算，装备 Skill 的 Agent 相比基线效能提升约 1.9×（《Agentic Engineering》公式：Accuracy × Autonomy × Token Economy）。

Chapter 04

什么时候需要 Skill？

并非所有任务都需要 Skill。理解 Skill 的适用边界，比盲目堆砌 Skill 更重要。本章通过四象限框架和真实场景案例，帮助工程师做出正确决策。

4.1 四象限决策矩阵

我们用两个维度来判断一个任务是否需要 Skill：任务宽度（窄域/宽域，即任务是否限定在特定专业领域）和轨迹长度（短/长，即完成任务需要多少步骤）。

🟢 必须用 Skill · 高价值

宽域 × 长轨迹

任务横跨多个领域，且执行步骤长。典型案例：全流程代码审查+重构+测试+部署、多模态数据分析报告生成、跨系统数据迁移与校验。

Skill 价值：协调多专业知识，确保长轨迹不出轨。

🟣 强烈推荐 · 精准提升

窄域 × 长轨迹

深度专业任务，执行链长。典型案例：医学影像分析+诊断建议、法律合同审查+风险标注、量化策略回测+报告。

Skill 价值：领域 Expert Skill 大幅降低幻觉率，保证专业准确性。

🔵 视情况 · 按需装备

宽域 × 短轨迹

日常通用任务，步骤少。典型案例：邮件摘要、会议纪要、简单翻译、头脑风暴。

Preference Skill 有价值（规范输出格式），Expert Skill 收益递减。

🟡 低优先 · 可选

窄域 × 短轨迹

简单专业查询，单步完成。典型案例：查询某个 API 参数、询问某个公式定义。

基础模型能力已足够，Skill 的边际收益有限，不宜过度设计。

4.2 案例：六大 Skills 适用场景

下面六个场景并非随意罗列，而是用 4.1 的四象限矩阵逐一定位的结果——它们全部落在长轨迹区的两个高价值象限：🟢 Q1 宽域×长轨迹（必须用 Skill）与 🟣 Q2 窄域×长轨迹（强烈推荐）。这印证了一个判断：任务轨迹越长，Skill 防止"出轨"的价值越不可替代；短轨迹的 Q3/Q4 象限则没有"必须用"的场景。

场景	象限定位（宽度 × 轨迹）	为什么必须用 Skill	预期收益
🏥 医疗辅助诊断	🟣 Q2 窄域 × 长轨迹	错误诊断有生命风险；需要实时医学指南（非训练数据）	幻觉率从 15% → <3%
⚖️ 法律合同审查	🟣 Q2 窄域 × 长轨迹	法律条款地域差异大；模型训练数据存在时效性滞后	漏检条款率降低 ~70%
💻 企业代码库操作	🟢 Q1 宽域 × 长轨迹	私有架构、命名规范、内部 API——模型完全未知	代码符合率从 30% → 85%
📊 财务报表生成	🟣 Q2 窄域 × 长轨迹	公司特定会计科目、合并规则、监管格式要求	人工校验时间减少 ~80%
🤖 多 Agent 协作	🟢 Q1 宽域 × 长轨迹	Agent 间需要共享理解，防止"信息断层"；A2A 协议要求	Agent 协同成功率 90% vs 53%
🔒 合规与安全审计	🟣 Q2 窄域 × 长轨迹	合规规则频繁更新；需实时检查而非依赖训练记忆	合规漏检从 25% → <5%

4.3 反例：什么时候 Skill 会带来负担

如果说 4.2 的"必须用"场景都集中在长轨迹的 Q1/Q2 高价值象限，那么反例正是它的镜像——主要落在 4.1 矩阵的短轨迹低价值侧（🔵 Q3 宽域×短轨迹、🟡 Q4 窄域×短轨迹）。在这两个象限里，基础模型能力已基本够用，强行 Skill 化只会带来"过载"风险：当 Skill 数量超过阈值，Context 窗口中 Skill 描述本身就会占据大量 Token，引发新的 Context Rot 问题。以下情况应避免过度 Skill 化：

① 任务多样性极高的通用助手（🔵 Q3 宽域 × 短轨迹）：典型的"宽域但每次都短"，正是 4.1 中"Expert Skill 收益递减"的象限。每个 Skill 都会消耗 System Prompt 空间，堆砌过多反而让模型"注意力分散"。建议最多同时加载 5—8 个 Skill。
③ 低频、一次性任务（🟡 Q4 窄域 × 短轨迹）：4.1 中"边际收益有限、不宜过度设计"的象限，再叠加"低频"进一步压低 ROI。专门为一次性任务设计 Skill 的回报极低，直接 Prompt 更经济。
② Skill 内容过时的场景（⚠️ 跨象限·时效维度）：这一条不在矩阵的两根轴（宽度 / 轨迹）上，而是一个独立的时效维度——任何象限都可能中招。如果领域规则更新频率超过 Skill 维护频率，过时的 Skill 比没有 Skill 更危险（会强制模型遵循错误规则）。即便任务本身落在 Q1/Q2，一旦 Skill 失修也应果断停用。

Chapter 05

建立 Skill 评估框架

如何判断一个 Skill 是好是坏？本章提出一套兼顾定量指标与定性判断的双轨评估框架，以及可落地的 A/B 评测流程。

Skill Value = Accuracy (+28%) × Autonomy (+22%) × Token Economy (+30%) = 1.9× Baseline

来源：《Agentic Engineering》（2026）Skill Value Formula · 三个维度独立可测量，乘积效应来自相互增强

5.1 定量与定性指标体系

Quantitative Metrics

📐 定量指标（权重 70%）

① 任务准确率（Task Accuracy）

有 Skill vs 无 Skill 在标准测试集上的正确率差值。黄金标准：领域专家双盲评审。权重 18%

18%

② Token 经济性（Token Efficiency）

完成同一任务的 Token 消耗比值。公式：TE = Token(无Skill) / Token(有Skill)。目标 TE ≥ 2.0

14%

③ 轮次压缩率（Turn Reduction Rate）

TRR = 1 - (有Skill轮次 / 无Skill轮次)。目标 TRR ≥ 0.5（轮次减少50%以上）

10%

④ 幻觉率（Hallucination Rate）

输出中包含不可验证或错误事实的比例。使用 FactScore 或 SAFE 工具自动评估

14%

⑤ 首次成功率（First-Pass Success）

无需人工修正即可直接使用的输出比例。FPS 反映 Skill 的"开箱即用"质量

8%

⑥ P95 延迟（P95 Latency）

95% 请求的响应延迟。Skill 不应显著增加延迟（目标 <+200ms vs 无Skill）

6%

Qualitative Metrics

🎯 定性指标（权重 30%）

① 领域深度（Domain Depth）

Skill 覆盖的专业知识是否达到"专家级"。评估方式：领域专家打分（1-5分）。关键问题：是否捕捉了领域 Tacit Knowledge？

10%

② 可移植性（Portability）

Skill 能否跨模型（Claude / GPT / Gemini）、跨 Agent 框架复用？依赖 MCP 标准协议的 Skill 可移植性最高

8%

③ 可维护性（Maintainability）

Skill 内容的更新成本与频率。评估：是否有版本管理？是否有 Changelog？更新一次需要多少人工？

7%

④ 安全合规性（Safety & Compliance）

Skill 是否包含或可能诱导有害输出？是否符合 GDPR / 行业监管要求？需通过红队测试（Red Team Eval）

5%

5.2 可视化评分卡

以下是一个典型 Expert Skill 的评估结果示例，完整覆盖 5.1 的全部 10 项指标（定量 6 项 + 定性 4 项），右侧评分卡标注各项权重，综合分按权重加权得出（满分100）：

Skill 综合评分雷达（示例：代码审查 Skill）

十维度评分 vs 基准值（满分10分）

量化评分卡（0—100）

① 任务准确率 ·18%82/100

② Token 经济性 ·14%90/100

③ 轮次压缩率 ·10%76/100

④ 幻觉率控制 ·14%88/100

⑤ 首次成功率 ·8%80/100

⑥ P95 延迟 ·6%72/100

⑦ 领域深度 ·10%85/100

⑧ 可移植性 ·8%70/100

⑨ 可维护性 ·7%78/100

⑩ 安全合规 ·5%95/100

82.3

综合 Skill 评分（10 项按权重加权，满分100）

✓ 推荐部署

Chapter 06

结论：Skill 是 Agent 时代的软件基础设施

回到最本质的问题：Skill 的价值是什么？

从 Prompt Engineering 到 Context Engineering，再到 Agent Engineering，每一次范式跃迁的本质，都是人类智慧向机器可执行指令的更深度转化。Skill 是这条转化链路上目前最成熟的载体。

评估 Skill 的价值，不能只看单一指标。一个真正优秀的 Skill，是准确率、自主性、Token 经济性三个维度的乘积最大化——这三者相互增强：更准确的 Skill 让 Agent 不需要反复校验；更强的自主性让 Skill 能处理更复杂的任务链；更高的 Token 经济性让系统能在有限 Context 中加载更多能力。

数据给出了清晰答案：装备 Skill 的 Agent，比裸 LLM 综合效能提升 1.9×。比无 Skill 的 Agent，Token 消耗降低 75%，轮次减少 64%，幻觉率最高降低 75%。

更深层的意义在于：Skill 是 AI 能力的"知识产权化"过程。当一个企业将其核心业务知识、流程规则、专家经验封装成高质量 Skill，这些 Skill 就成为了不可复制的竞争护城河——而这，才是 Skill 在商业维度上的终极价值。

"The bottleneck is no longer model intelligence — it's the structured knowledge we give models to act on."
— 《Agentic Engineering》，2026

Anthropic 的 MCP 协议、Google 的 A2A 协议，都是在争夺 Skill 互操作标准的制高点。这场战争的终局，将由谁构建了最丰富、最高质量的 Skill 生态来决定。

评估 Skill 的价值，本质上是在评估：在有限的 Context 窗口内，以最低成本、最高精度，完成最复杂任务的能力。而这，正是 Agent 时代所有竞争的核心命题。