- 你:「帮我规划一次周末去京都的旅行,预算5000元」
- Agent:(自动搜索机票价格)→(比较酒店并筛选)→(规划每日行程)→(计算预算)
- Agent:「已为您完成规划!往返机票1800元,住宿2晚1200元,包含清水寺、金阁寺等5个景点的详细行程,总预算4800元。[查看完整计划.pdf]」
这就是最本质的区别:ChatGPT给建议,Agent帮你干活

Agent 基础
1. 什么是 Agent?
Agent 可以理解为:
在大语言模型(LLM)基础上,具备自主决策与行动能力的系统。
Agent = LLM(大脑) + 工具(手脚) + 记忆(经验) + 规划(智慧)
与传统对话模型不同:
- 普通 LLM:输入 → 输出(一次性响应)
- Agent:目标 → 推理 → 规划 → 执行 → 反馈
Agent 不只是“回答问题”,而是完成任务。
2. Agent 与 ChatGPT 的本质区别
ChatGPT 类系统主要是:
- 被动响应
- 单轮或短链路生成
- 不直接执行动作
Agent 系统则强调:
- 多步决策(multi-step reasoning)
- 可调用工具(tool usage)
- 可持续状态(memory/state)
- 面向任务而非单次回答
一句话概括:
Agent = LLM + 决策机制 + 执行能力
3. Agent 的核心能力
层级 | 作用 |
感知层(Perception) | 接收输入 |
认知层(Cognition) | 推理与决策 |
执行层(Execution) | 调用工具与动作 |
记忆层(Memory) | 存储状态 |
一个完整 Agent 通常具备四种能力:
第一层:感知层(Perception Layer)
核心作用:
接收外部信息,并转换为模型可处理的输入。
主要任务:
- 接收用户指令(Prompt)
- 接收环境信号(数据 / API / 文档)
- 解析输入格式
典型组件:
- 用户输入
- 输入解析器
- LLM 的语言理解能力
本质理解:
感知层解决的是“Agent 看到了什么?”
类比:
像人的耳朵和眼睛,负责获取信息,而不负责思考。
第二层:认知层(Cognition Layer)
核心作用:
对输入进行理解、分析、推理与决策。
主要任务:
- 理解任务目标
- 推理当前状态
- 制定计划(Planning)
- 决定是否调用工具
典型组件:
- LLM(推理核心)
- Planning 模块
- Reasoning Engine
本质理解:
认知层解决的是“Agent 如何思考?”
类比:
像人的大脑,负责决策与判断。
第三层:执行层(Execution Layer)
核心作用:
将认知层的决策转化为具体行动。
主要任务:
- 调用外部工具(Tools)
- 执行代码
- 查询数据库
- 调用 API
- 与系统交互
典型组件:
- Tool 调用接口
- API Connector
- Code Executor
本质理解:
执行层解决的是“Agent 如何行动?”
类比:
像人的手和脚,把想法变成动作。
第四层:记忆层(Memory Layer)
核心作用:
保存与管理状态,使 Agent 具备连续性。
主要任务:
- 存储对话历史
- 记录任务进展
- 保存长期知识
- 支持上下文检索
典型组件:
- Short-term Memory(上下文)
- Long-term Memory(向量库 / DB)
- 状态管理模块
本质理解:
记忆层解决的是“Agent 记得什么?”
类比:
像人的记忆系统,保证不会“每轮失忆”。
4. Agent 的关键组成模块

1. LLM(大语言模型 / Brain)
作用:
- 理解用户意图
- 推理与决策
- 选择下一步动作
- 生成输出
本质:
负责“思考”。
关键点:
- temperature↓ → 输出更稳定
- LLM 能推理,但不能直接执行现实动作
2. Planning(规划模块)
作用:
- 拆解复杂任务
- 决定执行顺序
- 控制推理路径
为什么需要:
- 减少重复推理
- 避免步骤遗漏
- 降低 Token 浪费
典型模式:
- ReAct:边想边做(灵活,成本高)

- Plan-and-Execute:先计划后执行(高效,灵活性低)

3. Memory(记忆模块)

作用:
- 保存上下文
- 维持状态连续性
类型:
- 短期记忆:当前对话 / 任务
- 长期记忆:用户信息 / 经验 / 知识
关键问题:
- Token 限制
- 成本累积
解决:
- 摘要记忆
- 向量数据库检索
4. Tools(工具模块)
作用:
- 执行具体动作
- 扩展 Agent 能力边界
常见能力:
- 搜索
- Python 计算
- 数据库查询
- API 调用
关键设计原则:
- Name 清晰
- Description 精确
- 必须有错误处理
5. Agent 的数据流逻辑
典型流程:
- 接收输入(目标/问题)
- LLM 理解与推理
- Planning 拆解任务
- Execution 调用工具
- Memory 更新状态
- 输出结果
6. 为什么 Agent 被认为是重要方向?
因为它将 AI 从:
“文本生成系统” → “任务执行系统”
扩展为:
- 可行动
- 可决策
- 可集成外部世界
- 可模拟人类工作流
Agent 的工作原理与模式
1. ReAct 框架是什么?
2. 其他常见 Agent 工作模式
3. 理解 Agent 的三种视角
视角一:Agent 是“员工”
你(老板):「帮我准备明天的演讲PPT」 Agent(员工): 理解需求(演讲主题、目标听众) 搜索资料(行业数据、案例) 设计大纲(结构规划) 制作PPT(使用工具) 审核优化(自我检查) 交付成果(PPT文件)
- 接收任务
- 拆解工作
- 使用工具
- 交付结果
强调任务执行角色。
视角二:Agent 是“循环系统”
输入 → [感知 → 思考 → 决策 → 行动 → 观察] → 输出 ↑_______________________________| 反馈循环
强调动态决策过程。
视角三:Agent 是“大脑 + 工具”
大脑(LLM): 理解语言 推理规划 生成文本 ↕ 通信 工具箱: 搜索引擎 计算器 API接口 数据库。
- LLM = 大脑
- Tools = 能力扩展
强调能力组合结构。
Agent 构建中的典型难点
1. 无限循环 / 任务卡死
问题:
- Agent 不断重复步骤
- 无法终止
原因:
- 停止条件不清晰
- 推理失控
解决:
- 最大步数限制
- 明确终止规则
- 状态检测机制
2. 工具选择错误
问题:
- 调错工具
- 调用顺序不合理
原因:
- 工具描述不清
- 决策逻辑弱
解决:
- 清晰工具 schema
- Tool routing 策略
- 强化提示设计
3. 上下文窗口溢出
问题:
- Token 超限
- 历史信息丢失
解决:
- Memory 压缩
- 摘要机制
- 向量数据库
4. 错误处理与鲁棒性
问题:
- API 失败
- 工具报错
- 返回异常数据
解决:
- Retry 机制
- Fallback 策略
- 异常检测
5. 成本控制
问题:
- 多轮推理耗费 tokens
- 工具调用频繁
解决:
- 限制推理深度
- 模型分级使用
- Cache 机制
多 Agent 协同系统
为什么需要多 Agent?
当任务:
- 复杂
- 多角色
- 多技能分工
例如:
研究员 + 分析员 + 执行员
常见协作结构
主流 Agent 开发框架(概念理解)
LangChain
- 模块化
- 适合快速搭建 Agent / RAG
AutoGen
- 多 Agent 协同
- 强调对话驱动任务
CrewAI
- 角色扮演式 Agent
- 强调团队协作逻辑
Dify
- 可视化平台
- 低代码构建 Agent / Workflow





