Observability and Tracing
LLM 系统的故障模式与传统 API 不同。可观测性不仅需要覆盖延迟和错误,还要覆盖成本和输出质量。
需要衡量的内容
- 请求量、错误率和尾部延迟。
- 每次请求、每个功能、每个用户群体的 Token 用量和成本。
- 工具调用成功率和工具调用延迟分布。
- 缓存命中率(如果你缓存了提示词/响应)。
- 质量信号(人工反馈、自动化检查、评估分数)。
- 高基数日志很有用,但可能变得昂贵且有风险。
- 采样可以降低成本,但可能遗漏罕见的故障模式。
即将推出
- LLM 功能的最小化"生产仪表盘"模板。
- 工具调用和 RAG 检索步骤的链路追踪策略。