1. 核心概念与定义

"AI 的未来不仅仅是对话——更是行动。"

AI Agent 代表了从被动聊天机器人到自主系统的进化，能够推理、规划、使用工具并完成复杂的多步骤任务。本节探讨定义 AI Agent 的基本概念，以及它们与传统 LLM 应用的区别。

1.1 从 LLM 聊天机器人到 AI Agent

演进路径

核心差异

维度	传统 LLM	AI Agent
交互性	被动——仅生成文本	主动——在世界中采取行动
工作流	单次——单次响应	多步——规划和执行工作流
知识	有限——仅训练数据	扩展——通过工具获取实时数据
状态	无状态——无记忆	有状态——持久化记忆和学习
能力	对话式	任务完成
自主性	低——需要提示	高——自主规划

1.2 什么构成了"Agent"？

四大核心能力

1. Perception（感知）

理解用户意图和上下文
处理多模态输入（文本、图像、音频）
识别任务需求和约束

2. Reasoning（推理）

将复杂任务分解为子任务
规划执行序列
基于可用信息做决策

3. Action（行动）

调用工具和 API
与数据库和外部系统交互
修改环境中的状态

4. Reflection（反思）

评估结果是否符合目标
检测和纠正错误
必要时重新规划

1.3 Agent 公式

核心组件

Agent = Model（大脑）+ Prompt（指令）+ Memory（上下文）
        + Tools（能力）+ Planning（架构）

组件分解

组件	角色	示例
Model	推理引擎	GPT-4, Claude 3.5, Llama 3
Prompt	行为定义	系统 Prompt、任务指令
Memory	上下文和知识	对话历史、RAG、向量数据库
Tools	世界交互	API、数据库、代码执行
Planning	任务编排	ReAct、Plan-and-Execute、Reflection

组件深入解析

1. Model（大脑/模型）

LLM 作为核心推理引擎，负责：

理解自然语言输入
生成规划和决策
选择合适的工具
解释工具结果

2. Prompt（指令）

系统 Prompt 定义 Agent 行为：

你是一个研究助手 Agent，可以访问网络搜索和学术数据库。
你的目标是为用户查询找到、综合和引用准确的信息。
在呈现结论之前，始终从多个来源验证信息。

3. Memory（记忆/上下文）

记忆系统使 Agent 能够维护上下文：

缓冲记忆：最近的对话历史
摘要记忆：压缩的历史上下文
向量存储：语义知识检索
实体记忆：关于人物、地点、事物的事实
情景记忆：过去的经验和结果

4. Tools（工具/能力）

工具扩展 Agent 的能力超越文本生成：

网络搜索：实时信息检索
代码执行：运行和测试代码
API 集成：访问外部服务
数据库查询：结构化数据操作
文件操作：读写文件

5. Planning（规划/架构）

规划机制编排多步工作流：

任务分解：将复杂目标拆分为子任务
重规划：根据反馈调整计划
多步规划：排列行动序列
目标导向规划：朝特定目标推进

1.4 Agent 循环

ReAct 模式（推理 + 行动）

最基础的 Agent 模式：

Thought（思考）：我需要做什么？
Action（行动）：执行工具/API
Observation（观察）：结果是什么？
重复：继续直到达成目标

示例工作流

实际示例

问题："日本最大城市的人口是多少？"

Thought 1：我需要先找到日本最大的城市
Action 1：search("日本最大城市")
Observation 1：东京是日本最大的城市

Thought 2：现在我需要东京的人口
Action 2：search("东京人口 2024")
Observation 2：约 1400 万人

Thought 3：我已获得所有所需信息
Answer：东京是日本最大的城市，约有 1400 万人口。

1.5 Agent 的能力与局限

Agent 擅长的场景

用例	为什么 Agent 表现出色
研究与分析师	多步骤信息收集与综合
内容创作	带有研究、审核和修订周期的写作
代码任务	调试、重构、文档生成
数据操作	ETL 工作流、数据分析、报告
客户服务	需要多个系统的复杂查询

何时应避免使用 Agent

场景	更好的替代方案	原因
简单 CRUD	REST API	更快、更便宜、更可预测
可预测的工作流	硬编码逻辑	更可靠、确定性
实时要求	传统程序	LLM 延迟太高
严格确定性	基于规则的系统	Agent 本质上是非确定性的
成本敏感	简单脚本	高 token 用量 vs 固定逻辑

成本效益分析

传统方法：
- 开发成本：高（手动编程）
- 运行成本：低（固定逻辑）
- 可维护性：低（难以更新）
- 灵活性：低（僵化的工作流）

Agent 方法：
- 开发成本：低（基于 Prompt）
- 运行成本：高（token 用量）
- 可维护性：高（更新 Prompt）
- 灵活性：高（自适应行为）

1.6 AI Agent 的类型

按自主性分类

级别	自主性	规划能力	示例
L1：反应式	无	无规划	简单工具调用聊天机器人
L2：有限	低	固定计划	脚本化工作流
L3：主动式	中	动态重规划	ReAct Agent
L4：自主式	高	自我改进	多 Agent 系统

按架构分类

类型	描述	使用场景
单 Agent	一个 Agent 使用多个工具	通用任务
监督者-工作者	一个协调者，多个专业工作者	复杂工作流
层级式	多级控制	大规模系统
顺序式	Agent 管道	内容创作
辩论式	多个 Agent 讨论/投票	决策制定

1.7 实际案例

示例 1：研究 Agent

用户："创建一份关于 2024 年最新 AI 趋势的报告"

Agent 工作流：
搜索"AI trends 2024"（5 个来源）
从每个来源提取关键主题
识别共同模式
综合为结构化报告
正确引用来源
审查完整性
格式化为 Markdown

示例 2：代码审查 Agent

用户："审查这个 Pull Request"

Agent 工作流：
阅读 diff
检查安全漏洞
验证最佳实践
测试边界情况
建议改进
生成审查评论
创建摘要报告

示例 3：客户服务 Agent

用户："我需要退货"

Agent 工作流：
验证用户身份
获取订单详情
检查退货政策
计算退款金额
处理退货请求
更新库存
发送确认邮件
提供物流信息

1.8 核心要点

核心概念

Agent = LLM + 工具 + 规划
- LLM 提供推理能力
- 工具提供交互能力
- 规划提供编排能力
Agent 四大支柱
- 感知：理解世界
- 推理：做出决策
- 行动：与世界交互
- 反思：学习和改进
ReAct 模式
- Thought → Action → Observation → 重复
- Agent 行为的基础循环

决策框架

我应该使用 Agent 吗？

是，如果：
- 任务需要多步推理
- 信息分布在多个来源
- 任务涉及创意或综合
- 需求可能动态变化

否，如果：
- 任务是简单 CRUD
- 工作流已明确定义且固定
- 延迟要求严格
- 成本是首要考虑

1.9 深入学习的前置条件

在继续学习下一节之前，请确保你理解：

LLM 基础（模块 01）
- 分词和 Embeddings
- Transformer 架构
- 模型能力和限制
Prompt Engineering（模块 02）
- 系统 Prompt
- Few-shot 学习
- 结构化输出
- 推理模式
RAG 概念（模块 03）
- 向量数据库
- 检索策略
- 上下文管理
MCP 协议（模块 05）
- 工具定义
- 服务器实现
- 集成模式

下一步

现在你已理解核心概念，探索 2. 架构组件 学习如何构建驱动 AI Agent 的基础系统。

Spring Boot 开发者

如果你迫不及待想开始编码，跳转到 4. 框架与技术栈 查看 Spring AI 实现指南。

1.1 从 LLM 聊天机器人到 AI Agent​

演进路径​

核心差异​

1.2 什么构成了"Agent"？​

四大核心能力​

1. Perception（感知）​

2. Reasoning（推理）​

3. Action（行动）​

4. Reflection（反思）​

1.3 Agent 公式​

核心组件​

组件分解​

组件深入解析​

1. Model（大脑/模型）​

2. Prompt（指令）​

3. Memory（记忆/上下文）​

4. Tools（工具/能力）​

5. Planning（规划/架构）​

1.4 Agent 循环​

ReAct 模式（推理 + 行动）​

示例工作流​

实际示例​

1.5 Agent 的能力与局限​

Agent 擅长的场景​

何时应避免使用 Agent​

成本效益分析​

1.6 AI Agent 的类型​

按自主性分类​

按架构分类​

1.7 实际案例​

示例 1：研究 Agent​

示例 2：代码审查 Agent​

示例 3：客户服务 Agent​

1.8 核心要点​

核心概念​

决策框架​

1.9 深入学习的前置条件​