跳到主要内容

Observability and Tracing

LLM 系统的故障模式与传统 API 不同。可观测性不仅需要覆盖延迟和错误,还要覆盖成本和输出质量。

需要衡量的内容

  • 请求量、错误率和尾部延迟。
  • 每次请求、每个功能、每个用户群体的 Token 用量和成本。
  • 工具调用成功率和工具调用延迟分布。
  • 缓存命中率(如果你缓存了提示词/响应)。
  • 质量信号(人工反馈、自动化检查、评估分数)。

权衡

  • 高基数日志很有用,但可能变得昂贵且有风险。
  • 采样可以降低成本,但可能遗漏罕见的故障模式。

即将推出

  • LLM 功能的最小化"生产仪表盘"模板。
  • 工具调用和 RAG 检索步骤的链路追踪策略。