AI Daily Digest: Qwen3.7-Max 登顶 Agent 基准 - 2026/05/20
今天的 AI 世界被一个名字刷屏:Qwen3.7-Max。阿里巴巴通义千问团队发布的这款 "Agent Frontier" 模型在多个 Coding Agent 和通用 Agent 基准上同时登顶,标志着 Agent 竞赛进入新阶段。与此同时,Docker 正式发布了容器 工作流 AI Agent Gordon,Google DeepMind 则展示了 Agent 技术在社会公益领域的突破。
Qwen3.7-Max:Agent 时代的新标杆
如果说昨天的 Google I/O 是 Agent 理念的宣言,今天 Qwen3.7-Max 的发布则是在 Agent 战场上投下了一枚重磅炸弹。这款模型不只是在某一个维度领先——它在 Coding Agent 和通用 Agent 两个方向上都实现了突破。
Coding Agent 基准横扫
在 Coding Agent 核心基准上,Qwen3.7-Max 的表现令人瞩目:
- Terminal-Bench 2.0-Terminus: 69.7%(超越 Opus-4.6 Max 的 65.4%)
- SWE-Pro: 60.6%(超越所有对手)
- SWE-Multilingual: 78.3%(多语言 SWE 基准最高)
- SciCode: 53.5%(科学编码任务领先)
值得注意的是,Qwen3.7-Max 在 NL2repo(从自然语言生成完整仓库)上也达到了 47.2%,仅次于 Opus-4.6 Max 的 47.6%。
跨框架通用性
也许比基准分数更重要 的是:Qwen3.7-Max 展示了前所未有的跨 Agent 框架通用能力。无论是在 Claude Code、OpenClaw、Qwen Code 还是其他 Agent scaffold 上,它都保持了稳定的高水平表现。这意味着模型不再是某个特定框架的"专属选手",而是真正的 Agent 基础模型。
35 小时自主任务
Qwen 团队展示了最震撼的 demo:模型完成了一次 35 小时的全自主 Linux 内核优化任务,期间执行了超过 1000 次工具调用。这个"马拉松任务"展示了 Agent 在长时自主执行方面的潜力——不再只是修复一个 bug,而是持续工作超过一天来完成复杂的系统优化。
MCP 能力领先
在 MCP 相关基准上,Qwen3.7-Max 同样领先:MCP-Mark 60.8%(第二是 K2.6 Thinking 的 57.5%),MCP-Atlas 76.4%。这表明 MCP 作为 Agent 工具集成标准正在被主流模型深度适配。
Docker Gordon:你的容器 AI Agent
Docker 发布了 Gordon,一个集成于 Docker Desktop 4.74+ 和 CLI 的 AI Agent,现 已正式 GA。Gordon 的核心卖点是环境感知——它能直接读取你的容器运行状态、日志、compose 文件和工作目录,提供上下文感知的调试和优化建议。
与 Cursor、Copilot、Claude Code 等编码 Agent 不同,Gordon 专注于 DevOps 工作流:容器化、调试、优化、管理。它拥有 shell 访问、文件系统操作、Docker CLI 和网络访问能力,但每个操作都需要用户明确批准,安全权限每次会话重置。
这标志着 AI Agent 的渗透范围从"写代码"扩展到了"运行代码的基础设施"。
Google DeepMind Running Guide Agent:Agent 技术的社会价值
Google DeepMind 展示了一个令人动容的应用:Running Guide Agent,帮助盲人和低视力跑者独立跑步的 AI 系统。
技术架构上,它采用了混合双路径设计:
- Pixel 10 Pro 设备端的分割模型,提供超低延迟的安全警报
- Gemma 4 E4B 多模态模型进行高级场景理解
系统内部是一个多 Agent 框架:Planner Agent 负责天气、路线和目标规划;Coach Agent 使用 DANGER/WARNING/NOTICE 三级层次提供实时指导;Break Agent 管理休息。跑者无需任何物理束缚就能独立完成跑步。
这是 Agent 技术从"
