2 篇博文含有标签「safety」

AI Daily Digest: Musk 庭审承认 xAI 蒸馏 OpenAI 模型，LLM 学会抵抗 RL 训练 - 2026/05/03

2026年5月3日 · 阅读需 6 分钟

Full Stack & AI Engineer

今日焦点：Musk v. Altman 诉讼案第一周庭审爆出惊人细节——Musk 亲自承认 xAI 使用 OpenAI 模型进行知识蒸馏。与此同时，学术界揭示了一个令人警觉的现象：足够强大的 LLM 可以学会"策略性探索"来抵抗 RL 训练，这对 RLHF 的可靠性提出了根本性质疑。

Harness 工程：编排与安全层

2026年4月5日 · 阅读需 8 分钟

Yi Wang

Full Stack & AI Engineer

在生成式人工智能爆炸式增长的早期阶段，整个行业都痴迷于“大脑”——即大语言模型（LLM）本身。当时，我们衡量成功的标准是参数量、上下文窗口大小，以及 MMLU 或 HumanEval 等基准测试分数。然而，随着我们跨入 2026 年，叙事发生了根本性的转变。我们意识到了一个冷酷的事实：模型本身并不是产品。

一个原始模型，无论它多么智能，就像一个没有底盘、方向盘或刹车的强大引擎。在生产环境中，单靠引擎非但不能解决问题，反而是一种风险。所谓的“产品”，是确保引擎安全地将车辆带到目的地的整个系统。正是这种认识催生了 Harness 工程（Harness Engineering）这一学科——它是将概率模型转化为确定性智能体系统（Agentic System）的编排、安全和可观测性层。