2 posts tagged with "reasoning"

AI Daily Digest: ARC-AGI-3 揭示前沿模型三大推理盲区，OpenAI 提示工程范式转变 - 2026/05/02

May 2, 2026 · 8 min read

Full Stack & AI Engineer

今日焦点：ARC Prize Foundation 对 GPT-5.5 和 Opus 4.7 进行了 160 次游戏回放分析，揭示了前沿模型在 ARC-AGI-3 上得分不到 1% 的三大系统性推理错误。与此同时，OpenAI 发布了 GPT-5.5 提示工程指南，明确建议开发者抛弃旧提示词、从零开始——这标志着提示工程从"微调过程"向"定义结果"的范式转变。

AI Daily Digest: GLM-5.1 开源击败 GPT-5.4，推理时自动纠错新突破 - 2026/04/21

April 21, 2026 · 7 min read

Yi Wang

Full Stack & AI Engineer

开源模型 GLM-5.1 在 SWE-Bench Pro 上超越 GPT-5.4，宣告"开源落后闭源 6 个月"的叙事终结。与此同时，arXiv 本周论文聚焦推理时自动纠错（KV-Cache 回滚）和 Agent 预测系统，Google 开放 AI Studio 订阅者深度使用权限，终端优先 AI 开发工具成为新范式。