AI Daily Digest: 开源逆转闭源 — GLM-5.1 击败 GPT-5.4,Claude Mythos 被锁进保险箱 - 2026/04/16
2026 年 4 月的 AI 行业正在经历一场深刻的哲学分裂:最强的模型不再是最贵的,最开放的不再是最弱的。
智谱 GLM-5.1 开源击败 GPT-5.4 和 Claude Opus 4.6
4 月 7 日,智谱 AI(Zhipu AI)发布了 GLM-5.1,一个 7440 亿参数的混合专家(MoE)模型,每次前向传播仅激活 400 亿参数,上下文窗口 200K tokens。最令人震惊的是:在 SWE-Bench Pro(专家级真实软件工程基准)上,GLM-5.1 超越了 GPT-5.4 和 Claude Opus 4.6。
更重要的是,GLM-5.1 以 MIT 许可证 发布——完全免费、可商用。与之形成鲜明对比的是同一天 Anthropic 发布的 Claude Mythos。
来源:WhatLLM - New AI Models April 2026
Anthropic Claude Mythos:最强模型不对外发布
Anthropic 在 4 月 7 日确认了 Claude Mythos 的存在——Anthropic 迄今构建的最强模型——但明确表示不会公开发布。它被限制在"Project Glasswing"计划中,仅约 50 家合作伙伴(AWS、Apple、Microsoft、Google、NVIDIA、Cisco、JPMorgan 等)可以获得访问权限。
Mythos 的任务是防御性部署:扫描基础设施和开源代码库中的可利用漏洞。定价:每百万输入 tokens 约 125。没有公开 API,没有正式发布日期。
这代表了 AI 行业的一个新趋势:最强大的能力被刻意限制,而非开放给所有人使用。
来源:AIFOD - AI Models in April 2026
Google Gemma 4:按参数量计算的最强开源模型
4 月 1 日,Google 发布了 Gemma 4 家族——四个变体从 2B 到 31B,全部采用 Apache 2.0 许可:
| 变体 | 类型 | 活跃参数 | 上下文窗口 |
|---|---|---|---|
| E2B | Edge | 2B | 128K |
| E4B | Edge | 4B | 128K |
| 26B MoE | MoE | 3.8B | 256K |
| 31B Dense | Dense | 31B | 256K |
亮点:31B 模型在 Arena AI 文本排行榜上排名全球第三(开源模型中),26B MoE 排名第六——超过了参数量大 20 倍的模型。所有模型原生支持视觉、音频、函数调用和 agentic 工作流。
GPT-6 "Spud" 即将到来:4 月 14 日跳票
OpenAI 的下一代模型(内部代号"Spud")预训练已于 3 月 24 日完成,Sam Altman 表示发布"还有几周"。4 月 14 日的发布传闻已证实为假——没有博客文章、没有推文、没有突然发布。
Polymarket 预测市场显示:
- 4 月 30 日前发布的概率:~78%
- 6 月 30 日前发布的概率:~95%
预期规格:1M–2M token 上下文窗口,原生多模态,MoE 架构,~40% 的性能提升。命名可能是 GPT-5.5 或 GPT-6,取决于实际性能跃幅。
来源:FindSkill.ai - GPT-6 Release Date
MCP 2026 路线图:从早期采纳到生产基础设施
Model Context Protocol(MCP)发布了 2026 年路线图,聚焦四个核心方向:
- 传输层演进:解决有状态会话导致的水平扩展困难,计划引入标准元数据格式支持服务器发现
- Agent 通信:明确异步任务的生命周期规则(重试、结果保留)
- 治理成熟度:改进决策结构,减少核心维护者的审查瓶颈
- 企业级就绪:审计追踪、企业身份认证、网关控制
"April 2026 feels like the moment where AI stopped being experimental and started being infrastructure."
来源:The New Stack - MCP Roadmap 2026
AI Agent 安全危机:97% 的企业预期重大安全事件
根据斯坦福 2026 AI Index,AI Agent 在真实计算机任务上的成功率从 12% 跃升至 66%。但安全形势严峻:
- 86% 的企业不为 AI Agent 执行访问策略
- 仅 5% 认为能够控制被入侵的 AI Agent
- 97% 预期 2026 年将发生重大 AI Agent 安全事件
- AI 驱动的欺诈利润是传统方法的 4.5 倍
Microsoft 发布了开源的 Agent Governance Toolkit,可在不到 0.1 毫秒内阻断 10 种关键攻击类型。Anthropic 的 Project Glasswing 也是对这一威胁的回应。
来源:AI Agent Store - April 2026
arXiv 论文精选
本周几篇值得关注的论文:
- LongCoT:长链式思维推理基准测试,包含 2000+ 可扩展任务,评估模型在长推理链上的规划和管理能力
- TREX:多 Agent 系统自动化整个 LLM 训练生命周期,基于树形探索的 Agent 驱动微调
- Consensus Reasoning Knowledge Graph:通过共识推理知识图谱改进 Chain-of-Thought 合成的鲁棒性
- UI-Zoomer:基于不确定性的自适应缩放 GUI 定位方法,提升 Agent 在密集布局中的表现
- From P(y|x) to P(y):研究强化学习在预训练空间中优化边际分布的潜力
OpenAI、Anthropic、Google 联手对抗中国模型蒸馏
Bloomberg 报道,三家 AI 巨头已开始共享信息,打击中国竞争对手通过蒸馏复制其模型的行为。OpenAI 指控 DeepSeek 试图"搭便车"。与此同时,DeepSeek V4 完全在华为 Ascend 950PR 芯片上运行——彻底绕过了 Nvidia/CUDA 生态。
来源:Bloomberg
知识库更新
今日更新了以下文档:
- AI > LLM Fundamentals > Introduction:更新模型表格至 2026 年 4 月(新增 GPT-5.4、Claude Opus 4.6、Claude Mythos、Gemini 3.1 Pro、GLM-5.1、Gemma 4、DeepSeek V4 等),新增"2026 关键洞察",更新模型选择指南
- AI > MCP > Model Context Protocol:新增"2026 Roadmap: Four Priority Areas"章节,详述传输层演进、Agent 通信、治理成熟度、企业级就绪四大方向
- AI > Agents > Frameworks & Tech Stack:新增 Microsoft Agent Framework 1.0.0、Anthropic Conway、Cursor 3 三个框架/平台
本文由 AiDIY 每日更新助手自动生成,数据来源包括 Web Search、RSS 订阅、arXiv API、Hacker News 和 Semantic Scholar。
