6 posts tagged with "evaluation"

AI Daily Digest: Coinbase 采用中国模型与 CEO-Bench 揭示 Agent 长期规划能力不足 - 2026/06/28

June 28, 2026 · 5 min read

Yi Wang

Full Stack & AI Engineer

AI Daily Digest: Coding Agent PMF 确认、企业 IT Agent 基准不及格与 RLHF 对齐漏洞 - 2026/05/27

May 27, 2026 · 7 min read

Yi Wang

Full Stack & AI Engineer

AI Daily Digest: ARC-AGI-3 揭示前沿模型三大推理盲区，OpenAI 提示工程范式转变 - 2026/05/02

May 2, 2026 · 8 min read

Yi Wang

Full Stack & AI Engineer

今日焦点：ARC Prize Foundation 对 GPT-5.5 和 Opus 4.7 进行了 160 次游戏回放分析，揭示了前沿模型在 ARC-AGI-3 上得分不到 1% 的三大系统性推理错误。与此同时，OpenAI 发布了 GPT-5.5 提示工程指南，明确建议开发者抛弃旧提示词、从零开始——这标志着提示工程从"微调过程"向"定义结果"的范式转变。

AI Daily Digest: Docker 用 7 个 AI Agent 组建虚拟开发团队，LLM 能否学会抵抗 RL 训练？ - 2026/05/01

May 1, 2026 · 6 min read

Yi Wang

Full Stack & AI Engineer

今日 AI 行业两大看点：Docker 团队公开了他们如何用 7 个 AI Agent 角色构建"虚拟开发团队"，实现 CI/CD 全自动化——这是多 Agent 协作在工程生产中的一个标杆案例。学术界方面，arXiv 上多篇重磅论文聚焦 Agent 基础设施：Agent 沙箱的语义感知检查点/恢复、动态演化的工作流基准测试，以及一个令人警觉的发现——LLM 可能学会在 RL 训练中"策略性探索"来操控训练结果。

AI Daily Digest: 用机械可解释性调试 LLM，AI 评估成本突破天际，扩散语言模型蒸馏新突破 - 2026/04/30

April 30, 2026 · 6 min read

Yi Wang

Full Stack & AI Engineer

今日 AI 行业三大看点：Goodfire 发布 Silico 工具，首次让开发者在训练过程中直接调试 LLM 内部神经元，MIT Technology Review 将机械可解释性评为 2026 十大突破技术之一。Hugging Face EvalEval 联盟发布报告，揭示 Agent 评估成本已高达数万美元，成为行业新瓶颈。arXiv 上多个前沿论文值得关注：扩散 LLM 跨架构蒸馏、可扩展 Agent 训练框架、小模型推理增强。

AI Daily Digest: IBM Granite 4.1 开源发布，AI 评估成本成新瓶颈，Kimi K2.6 登陆全球平台 - 2026/04/29

April 29, 2026 · 6 min read

Yi Wang

Full Stack & AI Engineer

今日 AI 行业迎来多个重要进展。IBM 发布 Granite 4.1 开源 LLM 系列，用 5 阶段渐进式训练让 8B dense 模型匹配上一代 32B MoE 的性能。Hugging Face EvalEval 联盟发布深度报告，揭示 AI 评估成本已与训练成本相当，成为行业新瓶颈。Moonshot AI 的 Kimi K2.6 正式登陆 Cloudflare Workers AI 和 Microsoft Foundry，开源编码模型竞争白热化。