万字长文图解Agent核心概念，小白程序员必收藏，轻松掌握AI技术新趋势！

张开发

• 2026/6/6 0:11:47 • 15 分钟阅读

分享文章

本文以通俗易懂的方式详细讲解了Agent相关的核心概念包括LLM与Agent的区别、Agent与Workflow的差异、Agent的工作模式等。通过实际例子和生活化比喻帮助读者理解Agent如何解决LLM的弊端以及Function Call、MCP、Skills等关键技术的作用。文章还介绍了A2A协议阐述了Agent之间如何互相发现和协作。对于想要了解AI技术主旋律的小白和程序员来说本文是应对面试和深入学习Agent技术的宝贵资源。LLM 和 Agent 有什么区别要搞懂 Agent咱们得先从 LLM 聊起因为 Agent 本质上就是在 LLM 的基础上进化出来的。什么是 LLMLLM全称 Large Language Model翻译过来就是大语言模型。你可以把它想象成一个读了互联网上几乎所有文字的超级学霸。它通过学习海量的文本数据掌握了人类语言的各种规律和知识。我们平时用的 ChatGPT、Claude、DeepSeek、文心一言底层都是大语言模型。LLM 的工作原理说白了就是「预测下一个字」。你给它一段话它会根据学到的语言规律一个字一个字地往后接。听起来简单但因为它学的数据量实在太大了这种「接龙」的效果好到令人吃惊它能写文章、写代码、做翻译、回答各种专业问题。LLM 有什么弊端虽然 LLM 非常聪明但你仔细想想会发现它其实有点像一个有嘴没手的顾问。第一个弊端是只会「说」不会「做」。你让 LLM「帮我订一张机票」它会详细告诉你怎么订但它真没法替你去携程下单。你让它「帮我把这个 Bug 修了」它能给你改好的代码但它没法自己打开编辑器去改文件、跑测试。说白了LLM 的能力被困在对话框里了它没法跟外部世界互动没法操作任何系统。第二个弊端是没有「记忆」。你跟 ChatGPT 聊了一下午聊了很多你的个人情况和项目背景。结果第二天开一个新对话它完全不记得你是谁了。因为 LLM 的记忆只限于当前这轮对话的上下文窗口对话一结束一切归零。第三个弊端是不会用「工具」。你问 LLM 今天上海天气怎么样它只能根据训练数据里的旧知识来猜而不是像你一样打开天气 App 查实时数据。LLM 本身不能上网搜索、不能查数据库、不能调 API所有回答都来自它「脑子里」已有的知识而这些知识不仅有截止日期还可能是错的也就是常说的「幻觉」问题。第四个弊端是不会「规划」。如果你给 LLM 一个复杂任务比如「帮我做一份竞品分析报告」它只能一次性生成一大段文字。它不会像人一样先想想应该先搜集哪些信息、分析哪些维度、用什么框架来组织然后一步一步去执行。LLM 是「被动响应型」的你问一句它答一句没法自主拆解任务、制定计划、分步执行。那 Agent 是什么讲完弊端你可能已经在想有没有一种方式能让 LLM 不仅会「说」还能「做」呢这就是 Agent 要解决的问题。Agent翻译过来叫智能体。简单来说Agent 就是 LLM 在循环中自主使用工具的系统。这句话有三个关键词「LLM」说明 Agent 的核心大脑还是大模型「工具」说明它能调用外部能力「循环」说明它不是一问一答就结束而是会不断地思考、行动、观察结果、再思考直到任务完成。打个比方如果 LLM 是一个只会给你建议的顾问你问他「怎么装修房子」他能讲一大堆方案但绝不会亲自动手。那 Agent 就是一个能动手干活的项目经理你说「帮我把房子装修好」他会自己去找装修队、买材料、盯进度、解决问题直到装修完成。Agent 怎么解决 LLM 的弊端其实理解了上面的比喻答案就很清楚了。针对只会说不会做Agent 引入了工具调用能力可以调用搜索引擎、数据库、API、代码执行器等各种外部工具来真正执行操作。针对没有记忆Agent 配备了记忆系统包括记住当前任务上下文的短期记忆和存储在外部数据库中、可以跨对话保留的长期记忆。针对不会用工具业界推出了 MCP 等标准化协议来统一工具接入方式后面会详细讲。针对不会规划Agent 具备了任务拆解和规划能力能把一个大目标分解成多个小步骤然后逐步执行。Agent 的核心组成所以一个完整的 Agent 其实就是四个模块的组合。第一个是大脑也就是 LLM负责理解意图、推理判断、决定下一步行动。第二个是规划模块负责把复杂任务拆解成可执行的步骤。第三个是记忆模块负责存储和检索信息让 Agent 能在长时间任务中保持连贯。第四个是工具模块是 Agent 的「手和脚」让它能跟外部世界互动。用一个实际例子来感受。假设你对 Agent 说「帮我查一下下周三上海的天气如果不下雨就在日历上安排一个户外团建。」如果是 LLM它只会告诉你「你可以通过天气 App 查看天气然后在日历上创建事件」。而 Agent 会直接调用天气 API 查到下周三多云 25°C 无降雨然后自动调用日历 API 创建团建事件最后告诉你「已安排好了」。LLM 告诉你「怎么做」Agent 直接帮你「做完了」。这就是本质区别。Agent 和 Workflow 有什么区别搞懂了 LLM 和 Agent 的区别之后你可能还会碰到另一个容易搞混的概念Workflow工作流。很多人把 Agent 和 Workflow 混为一谈但它们的设计理念其实完全不同。先用一个场景来感受区别假设有一个任务处理客户的退款申请。Workflow 的做法是这样的开发者提前写好整个流程- 第一步接收申请- 第二步调用 LLM 提取关键信息- 第三步查数据库获取订单详情- 第四步调用 LLM 判断是否符合退款政策- 第五步执行退款或生成拒绝邮件第六步发送通知。每一步做什么、接下来走哪条路全都是提前在代码里写死的LLM 只是在某些步骤中被召唤出来做理解和判断。而 Agent 的做法完全不同。它收到「处理这个退款申请」的任务后自己来决定怎么做先看看申请写了什么然后觉得需要查一下订单信息发现情况有点特殊就去搜索退款政策文档推理判断后决定执行退款最后给客户发邮件通知。整个过程中每一步做什么都是 Agent 自己决定的而不是代码预先规定的。两者的定义Workflow 是指 LLM 和工具通过预定义的代码路径进行编排的系统而Agent 是指 LLM 动态主导自身流程与工具调用的系统由 LLM 自主决定如何完成任务。翻译成大白话就是Workflow 是「我开发者告诉你每一步该做什么」Agent 是「我告诉你目标你自己决定怎么做」。你可以这样类比Workflow 就像一条工厂流水线每个工位做什么、零件从哪来到哪去全都是提前设计好的。工人LLM只需要在自己的工位上完成指定动作。而 Agent 更像一个自主工作的项目经理老板只告诉他把这件事搞定然后他自己去调研、制定计划、协调资源、推进执行。核心区别在哪两者最核心的区别在于**「谁在控制流程」**。Workflow 的控制权在代码手里流程是确定的、可预测的、可复现的但灵活性比较差。Agent 的控制权在 LLM 手里行为是动态的、灵活的、能适应变化的但相应地也带来了不确定性。从成本角度看Workflow 因为流程固定token 消耗比较省大约是 Agent 的四分之一。Agent 因为需要反复推理决策token 消耗要高得多。从可靠性看Workflow 行为可预测出了问题容易定位Agent 决策路径不确定调试起来更困难。什么时候用 Workflow什么时候用 AgentAnthropic 给了一个非常实用的建议从最简单的方案开始只在明确需要时才增加复杂度。如果任务步骤是固定的、可以提前规划好的或者对可靠性要求很高比如金融交易、医疗系统那就用 Workflow。如果任务是开放式的、无法预知所有步骤或者需要灵活应对各种意外情况那就用 Agent。不过在实际生产环境中最常见的其实是混合架构Workflow 和 Agent 的结合。正如 LangChain 说的“大多数生产中的 Agent 系统其实是 Workflow 和 Agent 的组合。”比如一个智能客服系统整体流程用 Workflow 控制接收工单→分类→处理→回复但在处理环节遇到复杂问题时会启动一个 Agent 来自主分析和解决。所以不要把两者对立起来它们更像是工具箱里的锤子和螺丝刀不是竞争关系而是配合关系。Agent 有什么工作模式了解了 Agent 是什么之后下一个问题就是Agent 到底是怎么「干活」的就像人干活有不同的方式有人喜欢边做边想有人喜欢先列计划再动手有人喜欢团队协作Agent 干活也有不同的工作模式。模式一ReAct边想边做ReAct 是目前最经典、最基础的 Agent 工作模式名字来源于 Reasoning Acting 的缩写也就是「推理行动」。几乎所有主流的 Agent 框架底层都在用它。它的核心思想非常简单Agent 在思考和行动之间不断交替。具体来说就是一个三步循环先是思考Thought分析当前情况决定下一步做什么然后是行动Action调用一个工具来执行接着是观察Observation查看工具返回的结果。然后回到思考如此循环直到任务完成。打个生活化的比方。想象你要收拾行李准备出差你会先想「我要去上海三天先看看天气怎么样」然后打开手机查天气预报发现会下雨气温 15-20°C接着想「得带伞和外套」于是去找出来放进行李箱再想「还得确认酒店」打开 App 检查预订信息… 这就是 ReAct 的精髓每一步都先想后做做完看结果再决定下一步。ReAct 的优点是透明可审计每一步思考过程都看得见、灵活适应遇到意外能随时调整、通用性强。但它的缺点也很明显token 消耗大因为每一步都要完整推理一次有时会陷入循环反复执行相同动作走不出来。模式二Plan-and-Execute先想好再做如果说 ReAct 是「边想边做」Plan-and-Execute 就是「先想好再做」。它把 Agent 的工作分成两个阶段第一阶段是规划Agent 先把完整的执行计划想清楚第二阶段是执行按计划逐步完成不用每步都重新思考全局。用出差的例子来对比ReAct 是「查天气→想想带什么→找衣服→想想还缺什么→查酒店→想想还要准备什么…」每一步都重新审视全局。而 Plan-and-Execute 是先列一个清单查天气、准备衣物、确认酒店、准备证件、叫车然后逐项打勾执行。这种模式最大的优势是省钱。规划只做一次执行阶段不用反复推理token 消耗大约是 ReAct 的五分之一。但缺点是不够灵活如果执行到第 3 步发现情况变了原来的计划可能就不适用了。所以也有这么个做法是在执行过程中加入「重新规划检查点」每隔几步检查一下计划是否还靠谱。模式三Reflection做完再检查反思模式的核心思想是 Agent 完成任务后不急着交付而是先自我检查一遍就像你写完文章不会直接发出去而是再通读一遍、改一改、润色一下。实现方式通常有两种。一种是自我反思同一个 Agent 完成任务后切换到「审查者」角色来审视自己的输出发现问题就修改然后再审查直到满意。另一种是双 Agent 对话一个 Agent 负责生成另一个负责评审两者来回迭代直到评审方满意就像代码的 Code Review 过程。这种模式特别适合对质量要求高的场景比如代码生成、法律文书、学术论文等。模式四Multi-Agent团队协作当任务太复杂、一个 Agent 搞不定的时候怎么办答案是派一个团队上。Multi-Agent 模式让多个专业化的 Agent 各司其职比如一个负责规划、一个负责搜集信息、一个负责写代码、一个负责测试通过协作来完成复杂任务。这就像一个项目团队有产品经理、研究员、开发者、测试员各自做自己擅长的事。目前主流的多 Agent 框架包括 LangGraph、CrewAI、OpenAI Agents SDK 和微软的 AutoGen 等。不过 Anthropic 提醒过不要过早引入多 Agent 架构。很多时候一个强大的单 Agent 就够用了。只有任务确实需要拆分成多个并行子任务时多 Agent 才值得引入。最后总结一下这几种模式不是互斥的实际中往往是组合使用的。一个多 Agent 系统中每个 Agent 内部可能用的是 ReAct 模式整体协作用的是 Multi-Agent 模式最后还有一个 Reflection 环节来检查质量。选择哪种模式关键看你的任务特点和对灵活性、成本、质量的优先级排序。Function Call 是什么前面我们聊 Agent 的时候反复提到一个词「工具调用」。Agent 能查天气、能搜索信息、能操作数据库这些能力是怎么实现的答案就是Function Call函数调用。从「只会说话」到「能做事情」2023 年之前大语言模型只能做一件事生成文本。你问它问题它给你一段文字回答仅此而已。它说的再好听也只是「说」不能「做」。Function Call 的出现彻底改变了这个局面。它是 OpenAI 在 2023 年 6 月率先推出的一种能力简单来说就是让 LLM 不仅能生成文字还能告诉外部程序「我想调用某个函数参数是这些」。打个比方。在没有 Function Call 之前LLM 就像一个只能写字的人你问他天气他只能根据记忆回答「上海通常三月份比较潮湿」。有了 Function Call 之后这个人学会了「打电话」你问他天气他会拿起电话拨给天气台调用天气 API听到对方报的实时数据后再告诉你「今天上海 22°C多云」。Function Call 的工作原理Function Call 的工作流程分四步。第一步定义函数。开发者预先告诉 LLM「你手边有哪些工具可以用」用 JSON 格式描述每个函数的名字、功能说明和参数。比如你告诉它有一个get_weather函数接收一个城市名参数返回天气信息。{ tools: [ { type: function, function: { name: get_weather, description: 获取指定城市的实时天气, parameters: { type: object, properties: { city: { type: string, description: 城市名称比如上海 } }, required: [city] } } } ]}第二步模型判断。用户提问后LLM 分析用户的意图自己判断「要回答这个问题我需要调用哪个函数」。如果用户问「上海今天天气如何」LLM 会决定调用get_weather并生成参数{city: 上海}。{ tool_calls: [ { type: function, function: { name: get_weather, arguments: {\city\: \上海\} } } ]}第三步执行函数。注意这一步非常关键LLM 自己并不执行函数。它只是输出了「我想调用这个函数参数是这些」的结构化指令。真正执行函数的是你的应用程序。你的代码拿到 LLM 返回的调用指令后解析出city上海去实际调用天气 API拿到结果比如22度多云。第四步生成回答。你的代码把拿到的真实温度数据再次发给 LLM。LLM 这次有了客观数据支撑就会用非常自然的人类语言回复你今天上海天气是多云气温大约 22 摄氏度。为什么 Function Call 这么重要你可能会觉得这不就是「让 LLM 调 API」吗有什么了不起的关键在于Function Call 解决了两个核心问题。第一个是**什么时候调用的判断问题**LLM 能根据用户的自然语言意图自动判断需不需要调用工具、调用哪个工具。你不需要写复杂的条件判断逻辑LLM 自己会推理。第二个是**“传什么参数的提取问题**LLM 能从用户的自然语言中提取出结构化的参数。用户说帮我查一下北京后天的天气”LLM 能自动提取出city北京和date后天。这两个能力加在一起就把 LLM 从一个「只会聊天的文本生成器」变成了一个「能理解意图并驱动外部系统的决策引擎」。而这正是 Agent 的基石。可以说Function Call 就是 Agent 能力的最底层技术基础没有 Function CallAgent 就无法调用工具也就没法真正「做事」。目前几乎所有主流大模型都支持 Function Call包括 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列、Google 的 Gemini 系列以及各种开源模型如 Llama 等。虽然各家的 API 格式略有不同但核心原理是一样的。Function Call 和 Agent 的关系最后说一下两者的关系。Function Call 是一次性的「单步调用」LLM 判断需要调用一个函数调用完就结束了。而 Agent 是「循环调用」Agent 在一个循环中反复使用 Function Call每次调用后观察结果再决定下一步要不要继续调用其他函数。所以 Function Call 是 Agent 的「原子操作」Agent 是 Function Call 的「高级编排」。一个 Agent 完成一个复杂任务可能需要连续进行十几次 Function Call。MCP 是什么协议前面讲了 Function Call 让 LLM 能调用工具。但随着 Agent 越来越强大需要连接的工具和服务越来越多一个新问题浮出水面了集成太麻烦了。Function Call 的集成困境想象一下你开发了一个 Agent需要它能连 Slack 发消息、查 Google Drive 的文档、读 GitHub 的代码、查 Postgres 数据库。用 Function Call 的方式你需要为每一个服务单独写适配代码为 Slack 写一套函数定义和调用逻辑、为 Google Drive 写一套、为 GitHub 写一套、为数据库又写一套。如果你有 N 个 AI 应用要对接 M 个外部服务就需要写 N × M 个定制集成。这在实际中完全不可扩展。更头疼的是每个 LLM 厂商的 Function Call 格式还不完全一样OpenAI 用tool_callsAnthropic 用tool_usecontent block参数结构也有差异。MCP 的诞生为了解决这个问题Anthropic 在 2024 年 11 月开源了MCPModel Context Protocol模型上下文协议。你可以把 MCP 理解为**「AI 界的 USB-C 接口」**。以前不同的手机、电脑、设备各自用不同的充电线和接口非常混乱。USB-C 统一了这一切一根线就能充电、传数据、接显示器。MCP 做的是同样的事情它提供了一个统一的标准让任何 AI 应用都能用同一种方式连接任何外部工具和数据源。MCP 是怎么工作的MCP 的架构很清晰主要有三个角色。首先是MCP Host宿主就是你使用的 AI 应用比如 Claude Desktop、Cursor 编辑器、你自己开发的 Agent 应用。它是整个交互的发起方。然后是MCP Client客户端它住在 Host 里面负责跟 MCP Server 通信。你可以把它理解为翻译官Host 想要什么能力Client 就去跟对应的 Server 沟通。最后是MCP Server服务端它负责对外暴露具体的工具能力和数据资源。比如有一个 GitHub MCP Server它能提供搜索代码“创建 Issue”“查看 PR等工具。一个 Slack MCP Server 能提供发送消息”搜索频道等工具。整个流程就是用户在 AI 应用中提问 → AI 应用Host通过 MCP Client 发现有哪些可用工具 → AI 决定调用某个工具 → MCP Client 向对应的 MCP Server 发送请求 → Server 执行操作返回结果 → AI 基于结果生成回答。MCP 解决了什么问题最核心的就是把 N × M 的集成问题变成了 N M 的问题。以前每个 AI 应用要跟每个服务单独对接现在每个 AI 应用只要支持 MCP 协议实现一次 Client每个服务只要提供一个 MCP Server实现一次 Server双方就能自动对接。新增一个服务不需要改任何 AI 应用的代码新增一个 AI 应用也不需要改任何服务的代码。而且 MCP Server 暴露的工具是可发现的AI 应用启动时能自动查询有哪些 MCP Server 可用、每个 Server 提供哪些工具、每个工具的参数是什么。这意味着 Agent 可以在运行时动态发现新的能力而不是只能用开发者写死的那些函数。Skills 是什么前面讲了 Function Call 让 Agent 能调用函数MCP 让 Agent 用统一标准连接工具。但你有没有想过一个问题Agent 知道怎么调用工具了但它知道在什么场景下该用什么方法来解决问题吗打个比方。你给一个新来的实习生一把锤子、一把螺丝刀、一个扳手这些是工具但他可能还是不知道修一把椅子应该先拧螺丝还是先敲钉子、用什么顺序和方法。他缺的不是工具而是经验和方法论也就是怎么做的知识。这就是Skills技能要解决的问题。Skills 是什么Skills 是一种自然语言指令文件通常是 Markdown 格式用来教 Agent在什么场景下、按照什么方法、遵循什么规范来完成特定任务。在 Claude Code、Cursor 等 AI 工具中Skills 通常以SKILL.md文件的形式存在。Skills 的结构很简单顶部有一段 YAML 格式的元数据声明这个 Skill 什么时候应该被激活比如当用户要求代码审查时下面是具体的行为指令用自然语言写成。---name: Code_Review_Expertdescription: 当用户要求进行代码审查时自动触发此技能。triggers: - 帮我 review 一下这段代码 - 代码审查---# 身份设定你是一个拥有 10 年开发经验的资深后端架构师你极其看重代码的可读性、性能和安全性。# 审查工作流当你进行代码审查时你必须严格按照以下步骤进行排查1. 看结构检查代码是否符合单一职责原则有没有超过 100 行的超长方法。2. 查漏洞重点检查是否存在 SQL 注入风险、越权访问风险或空指针异常风险。3. 审性能是否有在 for 循环里查数据库的愚蠢操作是否有流对象没有及时 close 释放4. 给方案你绝对不能只挑毛病必须针对每个问题给出具体的修改建议并且附带优化后的代码片段。# 输出规范语气要专业、极其直接不要说废话。直接输出一份 Markdown 格式的审查报告分点列出问题和修改方案。打个更直观的比方如果说 MCP 给了 Agent 一个装满工具的厨房有刀、有锅、有烤箱、有各种调料。那 Skills 就是一本菜谱告诉 Agent做红烧肉要先焯水再炒糖色加水炖 40 分钟火候要先大后小。厨房MCP解决的是能做什么的问题菜谱Skills解决的是该怎么做的问题。一个完整的 Agent 两者都需要。Skills 的工作方式Skills 的工作方式跟 Function Call 和 MCP 有本质不同。Function Call 和 MCP 都是让 Agent “执行外部操作”调用 API、查询数据库、发送消息这些操作发生在 Agent 外部。而 Skill 不只是告诉 Agent 怎么想它还能指导 Agent 怎么做一个 Skill 可以在 SKILL.md 文件中通过 allowed-tools 字段声明它需要使用哪些工具也可以打包可执行的脚本文件甚至可以指导 Agent 去调用 MCP 工具或发起Function Call具体来说当 Agent 启动时它会扫描可用的 Skills 列表。当用户提出请求时Agent 判断有没有匹配的 Skill。如果有Agent 就把这个 Skill 的内容加载到上下文中然后按照 Skill 中的指令来思考和行动。这就像给 Agent 「临时注入了一段专业经验」。没加载 Skill 之前Agent 只有通用能力加载了特定 Skill 之后Agent 在这个领域就变成了专家。Skills 有什么价值Skills 的核心价值在于将专业知识和最佳实践编码成可复用的模块。举几个例子一个代码审查Skill 可以定义审查的标准流程、关注点安全性、性能、可读性、输出格式一个SQL 优化Skill 可以编码 DBA 的优化经验先看执行计划、关注全表扫描、检查索引使用等一个客服回复Skill 可以定义品牌话术风格、常见问题处理流程、升级规则等。这些经验以前都在人的脑子里现在可以写成 Skill 文件让 Agent 使用。而且 Skills 可以共享和复用你写了一个好的 Skill团队里所有人的 Agent 都能用上。Function Call、MCP、Skills 有什么区别好了前面分别讲了 Function Call、MCP 和 Skills你可能已经有点绕了它们不都是让 Agent 更强的手段吗到底有什么区别咱们用一个统一的比喻来把它们串起来你就彻底明白了。一个统一的比喻想象 Agent 是一个新入职的员工。**Function Call 就是打电话的能力**这个员工学会了怎么拿起电话、拨号、跟对方沟通。这是最基础的能力没有这个能力他就没法跟外部世界互动。**MCP 就是公司的通讯录和电话系统**它统一管理所有外部联系方式供应商、合作伙伴、服务商员工不需要自己记住每个人的电话号码和通话方式直接查通讯录就行。新增一个联系人只要加到通讯录里所有员工都能用。**Skills 就是岗位培训手册**它告诉员工遇到客户投诉应该按什么流程处理“做报表应该用什么模板和方法”“跟供应商谈判要注意哪些要点”。它教的是做事的方法和规范而不是打电话的技术。三者的本质区别如果用更技术的语言来说三者的区别体现在几个维度上。从解决的问题来看Function Call 解决的是LLM 怎么跟外部函数交互这个最基础的问题。MCP 解决的是怎么用统一标准管理大量工具的集成问题。Skills 解决的是Agent 怎么获得领域专业知识的知识问题。从运行位置来看Function Call 的函数在你的应用程序中执行。MCP 的工具在外部的 MCP Server 中执行。Skills 完全在 Agent 的上下文窗口内生效不涉及任何外部调用。从技术本质来看Function Call 是一种 API 协议LLM 输出结构化的调用请求应用程序执行后返回结果。MCP 是一种通信标准定义了 Client 和 Server 之间如何发现和调用工具。Skills 是一种提示词扩展用自然语言编写的行为指令加载到 Agent 的上下文中。从标准化程度来看Function Call 在各 LLM 厂商之间格式不统一OpenAI 和 Anthropic 的格式就不一样。MCP 是统一的开放标准跨厂商通用。Skills 目前还没有统一标准各个 Agent 平台有自己的 Skill 格式。三者是什么关系理解了区别之后更重要的是理解三者的协作关系它们不是竞争关系而是分层互补的。Function Call 是底层基础。MCP 建立在 Function Call 之上提供了标准化的包装。当你的 Agent 通过 MCP 调用一个工具时底层其实还是在做 Function Call只不过格式和通信方式被 MCP 统一了。Skills 则在一个完全不同的维度上工作它不参与工具调用的过程而是指导 Agent什么时候该调用工具“用什么策略来完成任务”。用做饭来总结Function Call 是会使用厨具的能力会开火、会切菜MCP 是一个设备齐全且标准化的厨房所有厨具放在该放的地方用统一的方式使用Skills 是菜谱和厨艺经验知道做什么菜、怎么做、火候多大。三者结合才能做出一桌好菜。什么是 A2A 协议前面我们讲了 MCP 协议它解决了 Agent 跟工具之间的连接问题。但还有一个问题 MCP 没有解决如果有多个 Agent 需要互相协作它们之间怎么通信为什么需要 A2A想象这样一个场景一个大型企业里有多个 AI AgentHR 部门有一个招聘 AgentIT 部门有一个运维 Agent财务部门有一个报销 Agent。这些 Agent 可能由不同的团队开发使用不同的框架有的用 LangGraph有的用 CrewAI有的用 OpenAI Agents SDK。当一个新员工入职时需要 HR Agent 处理入职手续、IT Agent 配置工作电脑和账号、财务 Agent 设置薪资账户。这三个 Agent 需要协作但它们互相不认识也不知道对方会什么、怎么沟通。MCP 解决不了这个问题因为 MCP 是给 Agent 连接工具用的它处理的是Agent 调用数据库Agent 发送邮件这类 Agent 与工具之间的交互。但 Agent 与 Agent 之间的协作需要一个全新的协议。这就是A2AAgent-to-Agent协议诞生的背景。A2A 是什么A2A 是 Google 在 2025 年 4 月的 Google Cloud Next 大会上发布的一个开放协议全称 Agent-to-Agent Protocol顾名思义就是Agent 对 Agent的通信协议。它联合了超过 50 家合作伙伴共同推出包括 Atlassian、Salesforce、SAP、MongoDB、LangChain 等业界大玩家。A2A 定义了一套标准让不同的 AI Agent 能够互相发现、互相通信、互相委派任务不管这些 Agent 是用什么框架开发的、运行在什么平台上。A2A 的核心概念A2A 里有几个关键概念需要了解。第一个是Agent Card智能体名片。每个支持 A2A 的 Agent 都会发布一个 JSON 格式的名片描述自己的身份、能力、擅长的领域、支持的交互方式、认证要求等信息。其他 Agent 通过读取这个名片来了解这个 Agent 会什么我能请它帮什么忙。这就像你在 LinkedIn 上看到一个人的简历知道他的技能和经验后才决定要不要跟他合作。第二个是任务Task。A2A 中的所有协作都围绕任务展开。一个 Client Agent发起方创建一个任务发送给一个 Remote Agent执行方。任务有完整的生命周期从创建、处理中、到完成或失败每个状态变化都有明确的定义。这让双方能清楚地跟踪任务进展。第三个是消息和制品Message Artifact。Agent 之间通过消息来沟通过程中的信息通过制品来传递最终结果。比如一个研究 Agent 完成分析后会把分析报告作为制品返回给请求方。A2A 和 MCP 是什么关系这是一个非常重要的问题很多人会搞混。简单来说MCP 是「竖向」的处理 Agent 到工具的连接A2A 是「横向」的处理 Agent 到 Agent 的协作。Google 的官方设计中两者是互补的关系被明确设计为可以共同使用。在一个典型的多 Agent 系统中一个编排 Agent 通过 A2A 协议把任务委派给不同的专业 Agent而每个专业 Agent 内部通过 MCP 来连接它自己需要的工具。协议的边界很清晰Agent 之间的通信走 A2AAgent 调用工具走 MCP。A2A 的技术特点A2A 有几个值得注意的设计特点。首先它完全基于现有的 Web 标准HTTP 用于传输、JSON 用于消息格式、SSE 用于实时流式通信。这意味着不需要引入任何新的基础设施现有的 Web 技术栈就能直接支持。其次它支持异步和长时间运行的任务。Agent 之间的协作往往不是一瞬间能完成的一个研究 Agent 可能需要几个小时才能完成深度调研。A2A 对此有完整的支持包括任务状态查询、进度更新、断线重连等。另外它是模态无关的Agent 之间不仅能传递文本还能交换音频、视频、图像、结构化数据等各种格式的内容。A2A 的生态现状截至 2026 年初A2A 还处于发展的早期阶段远不如 MCP 那样已经成为事实标准。但它背后有 Google 和 50 多家合作伙伴的推动而且它填补了一个 MCP 明确不处理的空白领域Agent 间协作所以业界普遍看好它的前景。目前整个 Agent 协议生态正在形成一个清晰的分层格局Function Call 提供底层调用能力MCP 标准化 Agent 与工具的连接A2A 标准化 Agent 与 Agent 的协作。三层协议各司其职、互补共存共同支撑起 Agent 技术的完整基础设施。写在最后好了到这里八个核心问题就都讲清楚了。我们快速回顾一下整篇文章的脉络从最基础的LLM说起它是一个超级强大的文本生成引擎但有「不能做事、没有记忆、不会用工具、不会规划」四大弊端。Agent在 LLM 基础上加入了工具、记忆、规划能力从「回答问题」进化到「完成任务」。Workflow和 Agent 的区别在于「谁在控制流程」Workflow 由代码控制Agent 由 LLM 自主决策。Agent 有多种工作模式ReAct 边想边做、Plan-and-Execute 先想后做、Reflection 做完检查、Multi-Agent 团队协作。在底层技术上Function Call是让 LLM 能调用外部函数的基础能力。MCP是统一 Agent 与工具连接的标准协议被称为「AI 界的 USB-C」。Skills是教 Agent 做事方法的知识层解决「怎么做」的问题。三者分别对应能力层、连接层和知识层分层互补。最后A2A协议解决了 Agent 之间如何互相发现和协作的问题与 MCP 形成「横向竖向」的完整协议生态。好了今天的分享就到这里。那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

万字长文图解Agent核心概念，小白程序员必收藏，轻松掌握AI技术新趋势！

最新文章

.NET 11原生AI推理引擎深度解密：如何绕过ML.NET抽象层直驱ONNX Runtime 1.16 SIMD指令集？

告别BIGMAP水印！免费搭建GeoServer离线地图服务：从TIF/SHP数据到OpenLayers展示的保姆级教程

FPGA项目选RAM别纠结！单口、伪双口、真双口RAM性能实测对比（基于Artix-7开发板）

Day05：大模型生产环境常见问题与排障科普笔记

告别Makefile烦恼：用STM32CubeIDE一站式搞定ROS1 rosserial库的集成与编译

iOS企业应用分发太麻烦？手把手教你用MDM实现从上传IPA到员工手机自动安装的全链路

推荐文章

相关文章

分享文章

更多文章

如何免费永久激活IDM？2024最新激活脚本使用教程与原理详解

JMS, ActiveMQ 学习一则寐

ObsPy完整指南：如何用Python高效处理地震数据

Unity集成科大讯飞离线语音合成：从环境配置到实战优化

Llama-3.2V-11B-cot开源模型部署：支持国密SM4加密传输与本地化词表

面试开发高频语法C#

FFmpeg静态编译：跨平台多媒体处理的零依赖解决方案

7个实用技巧：Ryujinx模拟器从入门到精通

3步驯服性能野兽：Turbo Boost Switcher让系统稳定性提升40%

3个核心功能让ASMR爱好者一键构建个人音频库：asmr-downloader技术解析

如何高效生成数据库文档？一站式多数据库表结构导出方案

敏感字段自动识别→动态掩码→审计留痕，一套可审计的PHP医疗脱敏配置方案，今天不部署明天被通报！