AI Daily Digest: IBM Granite 4.1 开源发布,AI 评估成本成新瓶颈,Kimi K2.6 登陆全球平台 - 2026/04/29
· 阅读需 6 分钟
今日 AI 行业迎来多个重要进展。IBM 发布 Granite 4.1 开源 LLM 系列,用 5 阶段渐进式训练让 8B dense 模型匹配上一代 32B MoE 的性能。Hugging Face EvalEval 联盟发布深度报告,揭示 AI 评估成本已与训练成本相当,成为行业新瓶颈。Moonshot AI 的 Kimi K2.6 正式登陆 Cloudflare Workers AI 和 Microsoft Foundry,开源编码模型竞争白热化。
IBM Granite 4.1:渐进式训练让小模型击败大模型
IBM 于 4 月 29 日发布 Granite 4.1 系列开源 LLM(Apache 2.0 许可),包含 3B、8B 和 30B 三个 dense 模型,基于 ~15T tokens 的 5 阶段渐进式预训练 流程。
核心亮点
- 8B dense 匹配 32B MoE:8B instruct 模型在多项基准上匹配甚至超越上一代 Granite 4.0-H-Small(32B-A9B MoE),证明精心设计的训练流程可以弥补参数规模差距
- 5 阶段渐进式预训练:
- 通用预训练(10T tokens)—— 59% CommonCrawl + 20% Code + 7% Math
- Math/Code 强化(2T tokens)—— Math 占比提升 5 倍
- 高质量退火(2T tokens)—— 引入 Long CoT 和指令数据
- 退火精炼(0.5T tokens)—— 线性 LR 衰减至零
- 长上下文扩展(4K → 32K → 128K → 512K)—— 每阶段使用模型合并保持短上下文性能
- 4 阶段 RL 训练:Multi-Domain RL → RLHF → Identity/Knowledge Calibration → Math RL,使用 On-policy GRPO + DAPO loss
- SFT 质量控制:LLM-as-Judge 框架,6 维加权评估 + 硬拒绝规则
技术架构
采用 GQA + RoPE + SwiGLU + RMSNorm + shared embeddings 的现代 dense transformer 设计。RL 训练使用 SkyRL 框架,每个 prompt 采样 16 次进行 on-policy 学习。
行业意义:Granite 4.1 的"数据质量优于数量"理念与当前行业"认知密度优于参数规模"的趋势高度吻合。Apache 2.0 许可使其成为企业级自托管场景的优质选择,特别是在金融、医疗等对数据隐私要求严格的领域。
🔗 来源:Hugging Face Blog | GitHub | Hugging Face Models
AI 评估成本:正在成为新的计算瓶颈
Hugging Face 的 EvalEval 联盟发布了一份详尽的报告,揭示了一个令人不安的趋势:AI 评估成本正在追赶甚至超过训练成本。
