Spring AITesting本页总览Testing AI Components 测试 LLM 应用需要分层策略:针对胶水代码的确定性单元测试、针对工具的契约测试、以及针对模型行为的评估套件。 需要测试的内容 提示词构造和格式化规则。 工具调用契约和错误处理。 RAG 检索正确性(查询、过滤器、排序期望)。 安全策略和拒绝行为。 使用精心策划的评估集进行回归保护。 权衡 Mock 模型提高确定性但降低真实性。 端到端测试真实但更慢且更昂贵。 即将推出 LLM 应用的实用测试金字塔。 构建评估数据集和 CI 门控的指南。