Agent Skills:AI 正在学会自己进化,这意味着什么?

张开发
2026/4/11 9:59:04 15 分钟阅读

分享文章

Agent Skills:AI 正在学会自己进化,这意味着什么?
2023 年Agent 学会了调用工具——Toolformer 证明 LLM 能自己学会用计算器和搜索引擎OpenAI 发布了 function callingLangChain 构建了工具生态。2024 年Agent 有了标准接口——Anthropic 发布 MCP 协议像 USB-C 一样统一了工具接入方式15 个月内催生了 17.7 万个工具。2026 年Agent 开始自己进化——自主创造新技能、积累可复用的技能库、甚至设计其他 Agent。这是一个完全不同的阶段。这篇文章不讲基础——假设你已经知道什么是 function calling 和 MCP。我要聚焦的是最前沿、最值得关注的三件事Agent 如何自我进化Self-Evolve、两种截然不同的技能架构Claude Code vs OpenClaw、以及为什么技能越多反而越危险。一、Self-EvolveAgent 自我进化的四条路线2026 年 Q1 最密集的研究方向莫过于Agent 如何自主获取和进化技能。至少有六篇重磅论文在讨论这个问题而它们揭示的路线各不相同。路线一从经验中提炼技能SkillCraft2026.02arXiv: 2603.00718直接问了一个关键问题Agent 能不能自动把基本的工具调用组合成可复用的技能然后缓存起来下次直接用答案是可以的而且效果惊人技能缓存可以减少 80% 的 token 消耗而技能组合能力和任务成功率高度相关。这就像程序员把重复写的代码封装成函数——Agent 把重复的工具调用链封装成技能下次直接调用而不需要重新推理整个链条。但问题是当技能库积累到一定规模后Agent 分不清该用哪个技能了。一篇 2026 年 1 月的研究Li, arXiv: 2601.04748发现了一个相变点——技能库大到一定程度选择准确率会突然崩溃因为技能描述之间的语义太相似了。路线二递归自进化SkillRL2026.02arXiv: 2602.08234走了一条更激进的路让技能库和 Agent 策略共同进化。具体来说它做了三件事 1. 从 Agent 的执行轨迹中自动发现新技能 2.自适应检索——平衡通用指导和特定技能 3.递归共进化——技能库变好 → Agent 表现变好 → 产生更好的轨迹 → 提炼出更好的技能这个正反馈循环特别像生物进化——不是预先设计好的而是在使用中自然涌现。MetaClaw2026.03arXiv: 2603.17187进一步推进了这个方向不只是从成功中学习还从失败轨迹中综合新技能。它在部署期间利用空闲时间进行策略优化实现了在野外进化。仅通过技能综合就提升了32% 的准确率。路线三让 Agent 设计 AgentMemento-Skills2026.03arXiv: 2603.18743是我认为 2026 年最有意思的一篇论文。它的核心想法是让一个通用 Agent 自主构建、适应和改进专用 Agent。每个专用 Agent 的能力被定义为一组 Markdown 格式的技能文件和 OpenClaw 的 SKILL.md 几乎一模一样通过读-写-反思循环不断迭代。这不是工具调用也不是技能复用——这是元技能创造技能的技能、设计 Agent 的 Agent。在基准测试上这个方法实现了26.2% 和 116.2% 的相对提升。路线四自动化技能库构建SkillX2026.04arXiv: 2604.04804解决了一个实际问题如何从零开始构建一个技能库它的做法是 1. 把原始经验组织成层级化的技能结构2. 通过执行反馈精炼每个技能 3.主动生成尚未遇到过的新技能这是关键——不需要等遇到问题再学提前预备SkillX 支持跨 Agent 的知识转移——一个 Agent 学到的技能可以直接被另一个 Agent 使用。为什么 Self-Evolve 如此重要回顾这四条路线我们可以看到一个清晰的趋势Agent 的能力边界正在从训练时决定变为运行时扩展。传统 LLM 的能力在训练完成后就基本固定了。但具有自我进化能力的 Agent每一次任务执行都可能产生新技能每一次失败都是学习机会。理论上它的能力上限是无穷的。这也是为什么这个方向同时让人兴奋和不安——一个能力不断增长的系统如果我们无法确保它增长的方向是对的那它的能力增长本身就是风险。二、技能创造Agent 不只是使用工具它在发明工具Self-Evolve 的核心能力之一是Skill Creation——Agent 自己创造工具。从用工具到造工具CREATORUIUC 清华2023.05arXiv: 2305.14318是最早探索这个方向的论文之一。它让 LLM 根据任务需求自己设计并实现工具——而不是从预定义列表中选择。关键创新是把抽象的工具设计和具体的代码实现分开让 Agent 先想清楚我需要什么工具再去写代码。LATMGoogle DeepMind Princeton2023.05arXiv: 2305.17126提出了一个更务实的分工模式GPT-4 造工具GPT-3.5 用工具。造工具是一次性的高成本操作用工具是反复的低成本操作。通过把创造和使用分离总成本降低一个量级——以 GPT-3.5 的价格获得 GPT-4 的效果。这揭示了一个深刻的经济学原理技能的价值在于复用。创造一次、使用无数次——这就是为什么技能库和技能市场有巨大的商业价值。Eureka连怎么学技能都可以自动化EurekaNVIDIA UPenn2023.10arXiv: 2310.12931更进一步LLM 不只是创造工具它还能设计教其他 Agent 学习新技能的奖励函数。在 83% 的任务上LLM 设计的奖励函数超过了人类专家设计的。最惊人的成果是教一只模拟机械手学会转笔——这个任务之前从未被自动化方法解决过。这是元技能创造——不是创造一个具体的技能而是创造学习技能的方法。在实际产品中Skill Creation 长什么样理论研究很激动人心但在真实产品中技能创造是什么样的Claude Code 的技能创造是对话式的。你和 Claude Code 协作过程中它会自动生成 CLAUDE.md 文件项目级配置和.claude/skills/目录下的 SKILL.md 文件。每个 SKILL.md 定义一个可重复执行的工作流——比如发布文章到 CSDN、生成周报等。这些技能是通过使用自然产生的不需要专门训练。OpenClaw 的技能创造更激进也更危险。它的/skills/目录下存储的是可直接执行的 Shell 和 Python 脚本——完全绕过 LLM 推理。这意味着技能执行不经过思考效率很高但风险极大。而且 Agent 可以自主创建新脚本这些脚本会被后续调用直接执行。两种路径的差异揭示了一个根本性的设计选择Claude CodeOpenClaw技能格式Markdown 指令SKILL.md可执行脚本Shell/Python执行方式经过 LLM 推理后执行直接执行绕过 LLM创造方式对话中自然产生Agent 自主生成作用域项目级当前目录全局所有对话安全模型沙盒 每次确认默认信任 完全权限三、两种哲学Claude Code vs OpenClaw 的技能架构这是 2026 年 Agent 领域最有代表性的两种技能架构它们的哲学完全对立。Claude Code按需、受控、项目级Claude Code 的技能系统有几个核心设计原则1. 项目级隔离。每个项目有自己的 CLAUDE.md 和.claude/skills/目录。项目 A 的技能不会泄漏到项目 B。这种隔离大大缩小了攻击面——即使一个项目的技能被污染其他项目不受影响。2. 声明式而非命令式。SKILL.md 文件定义的是做什么而不是怎么做。具体执行时LLM 会根据 SKILL.md 的指令进行推理然后使用工具Bash、Edit、Read 等完成任务。每一步都经过 LLM 的思考。3. 权限确认。危险操作文件修改、命令执行需要用户确认。这是一个人在回路的设计——Agent 提出建议人类做最终决定。4. 按需启动。Claude Code 不是 24/7 运行的后台进程。你需要的时候启动它不需要的时候它不存在。没有Agent 在你不知道的时候做了什么的焦虑。OpenClaw永驻、自治、全局OpenClaw 的设计哲学截然不同1. 全局记忆。MEMORY.md、SOUL.md、IDENTITY.md 是全局的影响所有对话和所有平台上的行为。这让 Agent越来越懂你但也让攻击面覆盖你的整个数字生活。2. 可执行技能。/skills/目录下的脚本可以直接执行不经过 LLM 推理。这是为了效率——重复性任务不需要每次都让 LLM 想一遍。但这也意味着恶意技能可以在没有任何思考过程的情况下执行任意代码。3. 自主运行。OpenClaw 24/7 运行自主决定何时响应、如何响应。你不需要主动调用它——它会主动帮你。这是真正的 AI 助手的愿景但也是自动失控系统的现实。4. 社区技能生态。ClawHub 上有近 4,000 个社区贡献的技能覆盖消息管理、日程安排、代码生成等场景。但研究发现7.1% 的技能存在严重安全缺陷甚至有伪装成Twitter 技能的恶意软件。这两种哲学的根本分歧Claude Code 的设计理念是Agent 是工具人是决策者。OpenClaw 的设计理念是Agent 是助手可以代替人做决策。这个分歧不是技术细节——它是关于人和 AI 的关系的根本选择。论文《Your Agent, Their Asset》2026.04arXiv: 2604.04759用实验证明了第二种哲学的代价通过向 OpenClaw 的记忆文件投毒攻击成功率高达 89%。而防御方案要么无效要么需要关闭 93% 的合法更新——也就是杀死 Agent 的核心功能。这不是 OpenClaw 的 Bug这是自主 Agent这种架构范式的固有矛盾让 Agent 进化的持久化机制恰恰就是攻击面。四、技能安全每一个技能都是一个潜在后门技能越多 → 能力越强 → 同时攻击面越大。这不是假设这是被多篇论文反复验证的事实。社区技能的安全现状Agent Skills 综述2026.02arXiv: 2602.12430对社区贡献的技能做了大规模审查26.1% 存在安全漏洞——明文凭证、未验证输入、权限过度申请。OpenClaw 的 ClawHub 情况更严重7.1% 有严重安全缺陷包括一个高下载量的Twitter 技能实际是恶意软件。MCP 生态的爆发式增长——和随之而来的安全隐患MCP 的 38 种威胁MCP 生态也不安全。MCP-382026.03arXiv: 2603.18063系统梳理了 38 种威胁类别涵盖工具描述投毒、间接提示注入、寄生式工具链、动态信任违规等。TIP 攻击复旦2026.03arXiv: 2603.24203用树搜索生成隐蔽的注入 payload在未防御的 MCP 系统上达到95% 的攻击成功率有防御时仍 50%。MCPSHIELD2026.04arXiv: 2604.05969做了最全面的安全分析23 种攻击向量4 个攻击面。核心发现——单一防御方案最多覆盖 34% 的风险必须多层防御叠加才能达到 91% 的理论覆盖率。安全问题为什么这么难解根本原因在于Agent 与技能之间的交互基于自然语言而自然语言是模糊的。传统软件通过 API 规范、类型系统、权限模型来确保安全。这些机制是精确的——你要么有权限要么没有。但 Agent 理解技能的方式是阅读技能描述一段自然语言文本然后决定如何使用。这个过程中的每一步都是概率性的——Agent 可能误解描述、被误导、或做出意外的推理。当安全依赖于AI 能否正确理解一段文字时安全就变成了概率事件。这就是为什么攻击成功率能达到 89%——你只需要写一段看起来合法的文字就能让 Agent 做任何事。五、接下来会发生什么趋势一技能的层级化和模块化从 SkillX 的层级化技能结构到 MCP 的语义检索技能组织正在从扁平列表走向结构化体系。未来的技能库更像一个操作系统的文件系统——有目录结构、有权限管理、有版本控制。趋势二技能信任框架26.1% 的社区技能有漏洞这个事实会催生技能信任基础设施——类似于代码签名、包管理器的安全审计、App Store 的审核机制。Agent Skills 综述已经提出了技能生命周期治理框架的概念。趋势三按需工具 vs 常驻 Agent 的路线分化Claude Code 代表的按需调用路线和 OpenClaw 代表的常驻 Agent路线会继续分化。在安全和可控性问题被真正解决之前按需模式可能会是更务实的选择。趋势四Agent 能力的寒武纪大爆发Self-Evolve Skill Creation 的组合意味着 Agent 的能力边界正在快速扩展。SkillRL 的递归共进化、Memento-Skills 的元技能设计、SkillX 的主动技能生成——这些研究指向一个方向Agent 的能力增长速度可能即将超过人类为其设计安全护栏的速度。这是最让人不安的趋势。几个数字作为结尾指标数据来源MCP 工具总量177,436Stein, 2026.03MCP 工具中软件开发占比67%Stein, 2026.03社区技能安全漏洞率26.1%Xu Yan, 2026.02OpenClaw 技能严重缺陷率7.1%Agent Security Paper, 2026.04记忆投毒后攻击成功率89.2%Your Agent Their Asset, 2026.04单一安全防御最大覆盖率34%MCPSHIELD, 2026.04技能缓存 token 节省80%SkillCraft, 2026.02语义工具检索 token 节省99.6%Semantic Discovery, 2026.03多跳工具使用成功率49%ToolHop, 2025.01MCP 未防御系统攻击成功率95%TIP, 2026.03Agent 正在学会自己进化。这很酷。但在它进化出安全意识之前我们最好保持清醒。参考论文Self-Evolve Skill Learning:- SkillCraft (2026.02) — arXiv: 2603.00718 - SkillRL (2026.02) — arXiv: 2602.08234 - MetaClaw (2026.03) — arXiv: 2603.17187 - Memento-Skills (2026.03) — arXiv: 2603.18743 - SkillX (2026.04) — arXiv: 2604.04804 - Single vs Multi-Agent (Li, 2026.01) — arXiv: 2601.04748Skill Creation:- CREATOR (UIUC清华, 2023.05) — arXiv: 2305.14318 - LATM (DeepMind, 2023.05) — arXiv: 2305.17126 - Eureka (NVIDIA, 2023.10) — arXiv: 2310.12931Security:- Your Agent, Their Asset (2026.04) — arXiv: 2604.04759 - Agent Skills Survey (2026.02) — arXiv: 2602.12430 - MCP-38 (2026.03) — arXiv: 2603.18063 - TIP Attack (复旦, 2026.03) — arXiv: 2603.24203 - MCPSHIELD (2026.04) — arXiv: 2604.05969 - MCP Tool Poisoning (2026.03) — arXiv: 2603.22489MCP Ecosystem:- 177K MCP Tools Analysis (Stein, 2026.03) — arXiv: 2603.23802 - Semantic Tool Discovery (2026.03) — arXiv: 2603.20313Foundational:- Voyager (NVIDIA, 2023.05) — arXiv: 2305.16291 - Toolformer (Meta, 2023.02) — arXiv: 2302.04761

更多文章