跳到主要内容

Testing AI Components

测试 LLM 应用需要分层策略:针对胶水代码的确定性单元测试、针对工具的契约测试、以及针对模型行为的评估套件。

需要测试的内容

  • 提示词构造和格式化规则。
  • 工具调用契约和错误处理。
  • RAG 检索正确性(查询、过滤器、排序期望)。
  • 安全策略和拒绝行为。
  • 使用精心策划的评估集进行回归保护。

权衡

  • Mock 模型提高确定性但降低真实性。
  • 端到端测试真实但更慢且更昂贵。

即将推出

  • LLM 应用的实用测试金字塔。
  • 构建评估数据集和 CI 门控的指南。