跳到主要内容

1. 核心概念与定义

"AI 的未来不仅仅是对话——更是行动。"

AI Agent 代表了从被动聊天机器人到自主系统的进化,能够推理、规划、使用工具并完成复杂的多步骤任务。本节探讨定义 AI Agent 的基本概念,以及它们与传统 LLM 应用的区别。


1.1 从 LLM 聊天机器人到 AI Agent

演进路径

核心差异

维度传统 LLMAI Agent
交互性被动——仅生成文本主动——在世界中采取行动
工作流单次——单次响应多步——规划和执行工作流
知识有限——仅训练数据扩展——通过工具获取实时数据
状态无状态——无记忆有状态——持久化记忆和学习
能力对话式任务完成
自主性低——需要提示高——自主规划

1.2 什么构成了"Agent"?

四大核心能力

1. Perception(感知)

  • 理解用户意图和上下文
  • 处理多模态输入(文本、图像、音频)
  • 识别任务需求和约束

2. Reasoning(推理)

  • 将复杂任务分解为子任务
  • 规划执行序列
  • 基于可用信息做决策

3. Action(行动)

  • 调用工具和 API
  • 与数据库和外部系统交互
  • 修改环境中的状态

4. Reflection(反思)

  • 评估结果是否符合目标
  • 检测和纠正错误
  • 必要时重新规划

1.3 Agent 公式

核心组件

Agent = Model(大脑)+ Prompt(指令)+ Memory(上下文)
+ Tools(能力)+ Planning(架构)

组件分解

组件角色示例
Model推理引擎GPT-4, Claude 3.5, Llama 3
Prompt行为定义系统 Prompt、任务指令
Memory上下文和知识对话历史、RAG、向量数据库
Tools世界交互API、数据库、代码执行
Planning任务编排ReAct、Plan-and-Execute、Reflection

组件深入解析

1. Model(大脑/模型)

LLM 作为核心推理引擎,负责:

  • 理解自然语言输入
  • 生成规划和决策
  • 选择合适的工具
  • 解释工具结果

2. Prompt(指令)

系统 Prompt 定义 Agent 行为:

你是一个研究助手 Agent,可以访问网络搜索和学术数据库。
你的目标是为用户查询找到、综合和引用准确的信息。
在呈现结论之前,始终从多个来源验证信息。

3. Memory(记忆/上下文)

记忆系统使 Agent 能够维护上下文:

  • 缓冲记忆:最近的对话历史
  • 摘要记忆:压缩的历史上下文
  • 向量存储:语义知识检索
  • 实体记忆:关于人物、地点、事物的事实
  • 情景记忆:过去的经验和结果

4. Tools(工具/能力)

工具扩展 Agent 的能力超越文本生成:

  • 网络搜索:实时信息检索
  • 代码执行:运行和测试代码
  • API 集成:访问外部服务
  • 数据库查询:结构化数据操作
  • 文件操作:读写文件

5. Planning(规划/架构)

规划机制编排多步工作流:

  • 任务分解:将复杂目标拆分为子任务
  • 重规划:根据反馈调整计划
  • 多步规划:排列行动序列
  • 目标导向规划:朝特定目标推进

1.4 Agent 循环

ReAct 模式(推理 + 行动)

最基础的 Agent 模式:

1. Thought(思考):我需要做什么?
2. Action(行动):执行工具/API
3. Observation(观察):结果是什么?
4. 重复:继续直到达成目标

示例工作流

实际示例

问题:"日本最大城市的人口是多少?"

Thought 1:我需要先找到日本最大的城市
Action 1:search("日本最大城市")
Observation 1:东京是日本最大的城市

Thought 2:现在我需要东京的人口
Action 2:search("东京人口 2024")
Observation 2:约 1400 万人

Thought 3:我已获得所有所需信息
Answer:东京是日本最大的城市,约有 1400 万人口。

1.5 Agent 的能力与局限

Agent 擅长的场景

用例为什么 Agent 表现出色
研究与分析师多步骤信息收集与综合
内容创作带有研究、审核和修订周期的写作
代码任务调试、重构、文档生成
数据操作ETL 工作流、数据分析、报告
客户服务需要多个系统的复杂查询

何时应避免使用 Agent

场景更好的替代方案原因
简单 CRUDREST API更快、更便宜、更可预测
可预测的工作流硬编码逻辑更可靠、确定性
实时要求传统程序LLM 延迟太高
严格确定性基于规则的系统Agent 本质上是非确定性的
成本敏感简单脚本高 token 用量 vs 固定逻辑

成本效益分析

传统方法:
- 开发成本:高(手动编程)
- 运行成本:低(固定逻辑)
- 可维护性:低(难以更新)
- 灵活性:低(僵化的工作流)

Agent 方法:
- 开发成本:低(基于 Prompt)
- 运行成本:高(token 用量)
- 可维护性:高(更新 Prompt)
- 灵活性:高(自适应行为)

1.6 AI Agent 的类型

按自主性分类

级别自主性规划能力示例
L1:反应式无规划简单工具调用聊天机器人
L2:有限固定计划脚本化工作流
L3:主动式动态重规划ReAct Agent
L4:自主式自我改进多 Agent 系统

按架构分类

类型描述使用场景
单 Agent一个 Agent 使用多个工具通用任务
监督者-工作者一个协调者,多个专业工作者复杂工作流
层级式多级控制大规模系统
顺序式Agent 管道内容创作
辩论式多个 Agent 讨论/投票决策制定

1.7 实际案例

示例 1:研究 Agent

用户:"创建一份关于 2024 年最新 AI 趋势的报告"

Agent 工作流:
1. 搜索"AI trends 2024"(5 个来源)
2. 从每个来源提取关键主题
3. 识别共同模式
4. 综合为结构化报告
5. 正确引用来源
6. 审查完整性
7. 格式化为 Markdown

示例 2:代码审查 Agent

用户:"审查这个 Pull Request"

Agent 工作流:
1. 阅读 diff
2. 检查安全漏洞
3. 验证最佳实践
4. 测试边界情况
5. 建议改进
6. 生成审查评论
7. 创建摘要报告

示例 3:客户服务 Agent

用户:"我需要退货"

Agent 工作流:
1. 验证用户身份
2. 获取订单详情
3. 检查退货政策
4. 计算退款金额
5. 处理退货请求
6. 更新库存
7. 发送确认邮件
8. 提供物流信息

1.8 核心要点

核心概念

  1. Agent = LLM + 工具 + 规划

    • LLM 提供推理能力
    • 工具提供交互能力
    • 规划提供编排能力
  2. Agent 四大支柱

    • 感知:理解世界
    • 推理:做出决策
    • 行动:与世界交互
    • 反思:学习和改进
  3. ReAct 模式

    • Thought → Action → Observation → 重复
    • Agent 行为的基础循环

决策框架

我应该使用 Agent 吗?

是,如果:
- 任务需要多步推理
- 信息分布在多个来源
- 任务涉及创意或综合
- 需求可能动态变化

否,如果:
- 任务是简单 CRUD
- 工作流已明确定义且固定
- 延迟要求严格
- 成本是首要考虑

1.9 深入学习的前置条件

在继续学习下一节之前,请确保你理解:

  1. LLM 基础模块 01

    • 分词和 Embeddings
    • Transformer 架构
    • 模型能力和限制
  2. Prompt Engineering模块 02

    • 系统 Prompt
    • Few-shot 学习
    • 结构化输出
    • 推理模式
  3. RAG 概念模块 03

    • 向量数据库
    • 检索策略
    • 上下文管理
  4. MCP 协议模块 05

    • 工具定义
    • 服务器实现
    • 集成模式

下一步

现在你已理解核心概念,探索 2. 架构组件 学习如何构建驱动 AI Agent 的基础系统。

Spring Boot 开发者

如果你迫不及待想开始编码,跳转到 4. 框架与技术栈 查看 Spring AI 实现指南。