1. 核心概念与定义
"AI 的未来不仅仅是对话——更是行动。"
AI Agent 代表了从被动聊天机器人到自主系统的进化,能够推理、规划、使用工具并完成复杂的多步骤任务。本节探讨定义 AI Agent 的基本概念,以及它们与传统 LLM 应用的区别。
1.1 从 LLM 聊天机器人到 AI Agent
演进路径
核心差异
| 维度 | 传统 LLM | AI Agent |
|---|---|---|
| 交互性 | 被动——仅生成文本 | 主动——在世界中采取行动 |
| 工作流 | 单次——单次响应 | 多步——规划和执行工作流 |
| 知识 | 有限——仅训练数据 | 扩展——通过工具获取实时数据 |
| 状态 | 无状态——无记忆 | 有状态——持久化记忆和学习 |
| 能力 | 对话式 | 任务完成 |
| 自主性 | 低——需要提示 | 高——自主规划 |
1.2 什么构成了"Agent"?
四大核心能力
1. Perception(感知)
- 理解用户意图和上下文
- 处理多模态输入(文本、图像、音频)
- 识别任务需求和约束
2. Reasoning(推理)
- 将复杂任务分解为子任务
- 规划执行序列
- 基于可用信息做决策
3. Action(行动)
- 调用工具和 API
- 与数据库和外部系统交互
- 修改环境中的状态
4. Reflection(反思)
- 评估结果是否符合目标
- 检测和纠正错误
- 必要时重新规划
1.3 Agent 公式
核心组件
Agent = Model(大脑)+ Prompt(指令)+ Memory(上下文)
+ Tools(能力)+ Planning(架构)
组件分解
| 组件 | 角色 | 示例 |
|---|---|---|
| Model | 推理引擎 | GPT-4, Claude 3.5, Llama 3 |
| Prompt | 行为定义 | 系统 Prompt、任务指令 |
| Memory | 上下文和知识 | 对话历史、RAG、向量数据库 |
| Tools | 世界交互 | API、数据库、代码执行 |
| Planning | 任务编排 | ReAct、Plan-and-Execute、Reflection |
组件深入解析
1. Model(大脑/模型)
LLM 作为核心推理引擎,负责:
- 理解自然语言输入
- 生成规划和决策
- 选择合适的工具
- 解释工具结果
2. Prompt(指令)
系统 Prompt 定义 Agent 行为:
你是一个研究助手 Agent,可以访问网络搜索和学术数据库。
你的目标是为用户查询找到、综合和引用准确的信息。
在呈现结论之前,始终从多个来源验证信息。
3. Memory(记忆/上下文)
记忆系统使 Agent 能够维护上下文:
- 缓冲记忆:最近的对话历史
- 摘要记忆:压缩的历史上下文
- 向量存储:语义知识 检索
- 实体记忆:关于人物、地点、事物的事实
- 情景记忆:过去的经验和结果
4. Tools(工具/能力)
工具扩展 Agent 的能力超越文本生成:
- 网络搜索:实时信息检索
- 代码执行:运行和测试代码
- API 集成:访问外部服务
- 数据库查询:结构化数据操作
- 文件操作:读写文件
5. Planning(规划/架构)
规划机制编排多步工作流:
- 任务分解:将复杂目标拆分为子任务
- 重规划:根据反馈调整计划
- 多步规划:排列行动序列
- 目标导向规划:朝特定目标推进