Agents8. 评估与基准测试本页总览8. 评估与基准测试 评估 AI Agent 与评估静态 LLM 有着根本性的区别。Agent 需要基于其推理、规划、使用工具、从错误中恢复以及完成多步骤任务的能力进行评估,而不仅仅是生成文本。 8.1 为什么 Agent 评估很重要