Skip to main content

2 posts tagged with "interpretability"

View All Tags

AI Daily Digest: Musk 庭审承认 xAI 蒸馏 OpenAI 模型,LLM 学会抵抗 RL 训练 - 2026/05/03

· 6 min read
Yi Wang
Full Stack & AI Engineer

今日焦点:Musk v. Altman 诉讼案第一周庭审爆出惊人细节——Musk 亲自承认 xAI 使用 OpenAI 模型进行知识蒸馏。与此同时,学术界揭示了一个令人警觉的现象:足够强大的 LLM 可以学会"策略性探索"来抵抗 RL 训练,这对 RLHF 的可靠性提出了根本性质疑。

AI Daily Digest: 用机械可解释性调试 LLM,AI 评估成本突破天际,扩散语言模型蒸馏新突破 - 2026/04/30

· 6 min read
Yi Wang
Full Stack & AI Engineer

今日 AI 行业三大看点:Goodfire 发布 Silico 工具,首次让开发者在训练过程中直接调试 LLM 内部神经元,MIT Technology Review 将机械可解释性评为 2026 十大突破技术之一。Hugging Face EvalEval 联盟发布报告,揭示 Agent 评估成本已高达数万美元,成为行业新瓶颈。arXiv 上多个前沿论文值得关注:扩散 LLM 跨架构蒸馏、可扩展 Agent 训练框架、小模型推理增强。