跳到主要内容

Testing AI Components

测试 LLM 应用需要分层策略：针对胶水代码的确定性单元测试、针对工具的契约测试、以及针对模型行为的评估套件。

需要测试的内容

提示词构造和格式化规则。
工具调用契约和错误处理。
RAG 检索正确性（查询、过滤器、排序期望）。
安全策略和拒绝行为。
使用精心策划的评估集进行回归保护。

权衡

Mock 模型提高确定性但降低真实性。
端到端测试真实但更慢且更昂贵。

即将推出

LLM 应用的实用测试金字塔。
构建评估数据集和 CI 门控的指南。

需要测试的内容
权衡
即将推出