Skip to main content

AI Daily Digest: 开源逆转闭源 — GLM-5.1 击败 GPT-5.4,Claude Mythos 被锁进保险箱 - 2026/04/16

· 6 min read
Yi Wang
Full Stack & AI Engineer

2026 年 4 月的 AI 行业正在经历一场深刻的哲学分裂:最强的模型不再是最贵的,最开放的不再是最弱的。

智谱 GLM-5.1 开源击败 GPT-5.4 和 Claude Opus 4.6

4 月 7 日,智谱 AI(Zhipu AI)发布了 GLM-5.1,一个 7440 亿参数的混合专家(MoE)模型,每次前向传播仅激活 400 亿参数,上下文窗口 200K tokens。最令人震惊的是:在 SWE-Bench Pro(专家级真实软件工程基准)上,GLM-5.1 超越了 GPT-5.4 和 Claude Opus 4.6

更重要的是,GLM-5.1 以 MIT 许可证 发布——完全免费、可商用。与之形成鲜明对比的是同一天 Anthropic 发布的 Claude Mythos。

来源:WhatLLM - New AI Models April 2026

Anthropic Claude Mythos:最强模型不对外发布

Anthropic 在 4 月 7 日确认了 Claude Mythos 的存在——Anthropic 迄今构建的最强模型——但明确表示不会公开发布。它被限制在"Project Glasswing"计划中,仅约 50 家合作伙伴(AWS、Apple、Microsoft、Google、NVIDIA、Cisco、JPMorgan 等)可以获得访问权限。

Mythos 的任务是防御性部署:扫描基础设施和开源代码库中的可利用漏洞。定价:每百万输入 tokens 约 25,输出约25,输出约 125。没有公开 API,没有正式发布日期。

这代表了 AI 行业的一个新趋势:最强大的能力被刻意限制,而非开放给所有人使用。

来源:AIFOD - AI Models in April 2026

Google Gemma 4:按参数量计算的最强开源模型

4 月 1 日,Google 发布了 Gemma 4 家族——四个变体从 2B 到 31B,全部采用 Apache 2.0 许可:

变体类型活跃参数上下文窗口
E2BEdge2B128K
E4BEdge4B128K
26B MoEMoE3.8B256K
31B DenseDense31B256K

亮点:31B 模型在 Arena AI 文本排行榜上排名全球第三(开源模型中),26B MoE 排名第六——超过了参数量大 20 倍的模型。所有模型原生支持视觉、音频、函数调用和 agentic 工作流。

来源:Google Blog - Gemma 4

GPT-6 "Spud" 即将到来:4 月 14 日跳票

OpenAI 的下一代模型(内部代号"Spud")预训练已于 3 月 24 日完成,Sam Altman 表示发布"还有几周"。4 月 14 日的发布传闻已证实为假——没有博客文章、没有推文、没有突然发布。

Polymarket 预测市场显示:

  • 4 月 30 日前发布的概率:~78%
  • 6 月 30 日前发布的概率:~95%

预期规格:1M–2M token 上下文窗口,原生多模态,MoE 架构,~40% 的性能提升。命名可能是 GPT-5.5 或 GPT-6,取决于实际性能跃幅。

来源:FindSkill.ai - GPT-6 Release Date

MCP 2026 路线图:从早期采纳到生产基础设施

Model Context Protocol(MCP)发布了 2026 年路线图,聚焦四个核心方向:

  1. 传输层演进:解决有状态会话导致的水平扩展困难,计划引入标准元数据格式支持服务器发现
  2. Agent 通信:明确异步任务的生命周期规则(重试、结果保留)
  3. 治理成熟度:改进决策结构,减少核心维护者的审查瓶颈
  4. 企业级就绪:审计追踪、企业身份认证、网关控制

"April 2026 feels like the moment where AI stopped being experimental and started being infrastructure."

来源:The New Stack - MCP Roadmap 2026

AI Agent 安全危机:97% 的企业预期重大安全事件

根据斯坦福 2026 AI Index,AI Agent 在真实计算机任务上的成功率从 12% 跃升至 66%。但安全形势严峻:

  • 86% 的企业不为 AI Agent 执行访问策略
  • 5% 认为能够控制被入侵的 AI Agent
  • 97% 预期 2026 年将发生重大 AI Agent 安全事件
  • AI 驱动的欺诈利润是传统方法的 4.5 倍

Microsoft 发布了开源的 Agent Governance Toolkit,可在不到 0.1 毫秒内阻断 10 种关键攻击类型。Anthropic 的 Project Glasswing 也是对这一威胁的回应。

来源:AI Agent Store - April 2026

arXiv 论文精选

本周几篇值得关注的论文:

  • LongCoT:长链式思维推理基准测试,包含 2000+ 可扩展任务,评估模型在长推理链上的规划和管理能力
  • TREX:多 Agent 系统自动化整个 LLM 训练生命周期,基于树形探索的 Agent 驱动微调
  • Consensus Reasoning Knowledge Graph:通过共识推理知识图谱改进 Chain-of-Thought 合成的鲁棒性
  • UI-Zoomer:基于不确定性的自适应缩放 GUI 定位方法,提升 Agent 在密集布局中的表现
  • From P(y|x) to P(y):研究强化学习在预训练空间中优化边际分布的潜力

OpenAI、Anthropic、Google 联手对抗中国模型蒸馏

Bloomberg 报道,三家 AI 巨头已开始共享信息,打击中国竞争对手通过蒸馏复制其模型的行为。OpenAI 指控 DeepSeek 试图"搭便车"。与此同时,DeepSeek V4 完全在华为 Ascend 950PR 芯片上运行——彻底绕过了 Nvidia/CUDA 生态。

来源:Bloomberg


知识库更新

今日更新了以下文档:

  1. AI > LLM Fundamentals > Introduction:更新模型表格至 2026 年 4 月(新增 GPT-5.4、Claude Opus 4.6、Claude Mythos、Gemini 3.1 Pro、GLM-5.1、Gemma 4、DeepSeek V4 等),新增"2026 关键洞察",更新模型选择指南
  2. AI > MCP > Model Context Protocol:新增"2026 Roadmap: Four Priority Areas"章节,详述传输层演进、Agent 通信、治理成熟度、企业级就绪四大方向
  3. AI > Agents > Frameworks & Tech Stack:新增 Microsoft Agent Framework 1.0.0、Anthropic Conway、Cursor 3 三个框架/平台

本文由 AiDIY 每日更新助手自动生成,数据来源包括 Web Search、RSS 订阅、arXiv API、Hacker News 和 Semantic Scholar。