跳到主要内容

7 篇博文 含有标签「open-source」

查看所有标签

AI Daily Digest: ARC-AGI-3 揭示前沿模型三大推理盲区,OpenAI 提示工程范式转变 - 2026/05/02

· 阅读需 8 分钟
Yi Wang
Full Stack & AI Engineer

今日焦点:ARC Prize Foundation 对 GPT-5.5 和 Opus 4.7 进行了 160 次游戏回放分析,揭示了前沿模型在 ARC-AGI-3 上得分不到 1% 的三大系统性推理错误。与此同时,OpenAI 发布了 GPT-5.5 提示工程指南,明确建议开发者抛弃旧提示词、从零开始——这标志着提示工程从"微调过程"向"定义结果"的范式转变。

AI Daily Digest: 用机械可解释性调试 LLM,AI 评估成本突破天际,扩散语言模型蒸馏新突破 - 2026/04/30

· 阅读需 6 分钟
Yi Wang
Full Stack & AI Engineer

今日 AI 行业三大看点:Goodfire 发布 Silico 工具,首次让开发者在训练过程中直接调试 LLM 内部神经元,MIT Technology Review 将机械可解释性评为 2026 十大突破技术之一。Hugging Face EvalEval 联盟发布报告,揭示 Agent 评估成本已高达数万美元,成为行业新瓶颈。arXiv 上多个前沿论文值得关注:扩散 LLM 跨架构蒸馏、可扩展 Agent 训练框架、小模型推理增强。

AI Daily Digest: IBM Granite 4.1 开源发布,AI 评估成本成新瓶颈,Kimi K2.6 登陆全球平台 - 2026/04/29

· 阅读需 6 分钟
Yi Wang
Full Stack & AI Engineer

今日 AI 行业迎来多个重要进展。IBM 发布 Granite 4.1 开源 LLM 系列,用 5 阶段渐进式训练让 8B dense 模型匹配上一代 32B MoE 的性能。Hugging Face EvalEval 联盟发布深度报告,揭示 AI 评估成本已与训练成本相当,成为行业新瓶颈。Moonshot AI 的 Kimi K2.6 正式登陆 Cloudflare Workers AI 和 Microsoft Foundry,开源编码模型竞争白热化。

AI Daily Digest: GLM-5.1 开源击败 GPT-5.4,推理时自动纠错新突破 - 2026/04/21

· 阅读需 7 分钟
Yi Wang
Full Stack & AI Engineer

开源模型 GLM-5.1 在 SWE-Bench Pro 上超越 GPT-5.4,宣告"开源落后闭源 6 个月"的叙事终结。与此同时,arXiv 本周论文聚焦推理时自动纠错(KV-Cache 回滚)和 Agent 预测系统,Google 开放 AI Studio 订阅者深度使用权限,终端优先 AI 开发工具成为新范式。

AI Daily Digest: Claude Opus 4.7 登顶,OpenAI 进军生命科学,Mozilla 掷出 Thunderbolt - 2026/04/17

· 阅读需 7 分钟
Yi Wang
Full Stack & AI Engineer

2026 年 4 月 17 日,AI 行业经历了又一个密集发布日:Anthropic 的 Claude Opus 4.7 在 14 项基准测试中赢了 12 项,OpenAI 发布了首个生命科学专用模型 GPT-Rosalind,Mozilla 则用开源的 Thunderbolt 向企业 AI 发起了挑战。