跳到主要内容

AI Daily Digest: DeepSeek-V4 发布百万上下文 Agent 专用模型,Google Deep Research Max 重新定义自主研究 - 2026/04/24

· 阅读需 5 分钟
Yi Wang
Full Stack & AI Engineer

今日 AI 行业有两个重磅发布。DeepSeek 发布 V4 系列,以 Hybrid Attention 架构实现百万级上下文窗口在 Agent 场景下的可用性突破;Google 推出基于 Gemini 3.1 Pro 的 Deep Research Max,支持 MCP 协议接入和异步企业工作流。学术方面,arXiv 新增多篇关于 Agentic AI 和高效微调的论文。

DeepSeek-V4:百万 Token 上下文,Agent 可真正使用

DeepSeek 今日发布 V4 系列,包含两个 MoE 模型:DeepSeek-V4-Pro(1.6T 总参数 / 49B 激活参数)和 DeepSeek-V4-Flash(284B 总参数 / 13B 激活参数),两者均支持 100 万 token 上下文窗口

核心创新:Hybrid Attention

V4 的真正突破不在于上下文长度本身,而在于让百万上下文在 Agentic 场景下真正可用。核心架构创新是 Hybrid Attention

  • Compressed Sparse Attention (CSA):通过压缩稀疏注意力机制,将 KV cache 内存占用降至标准 GQA 的约 2%
  • Hierarchical Context Attention (HCA):分层上下文注意力,保留关键信息的层次化表示
  • 推理效率:per-token FLOPs 降至 V3 的 10-27%(Flash 版本)

这意味着 Agent 在长时间运行、多步骤任务中不再因 context blowup 或 KV cache 耗尽而失败——这正是当前 Agent 在生产环境中最大的痛点之一。

模型定位

  • V4 Pro:面向需要深度推理和长上下文追踪的 Agentic 工作负载
  • V4 Flash:面向高吞吐推理和成本敏感场景,13B 激活参数使其极具成本竞争力

基准测试显示性能具有竞争力但未全面领先 SOTA——DeepSeek 的策略是为 Agent 推理效率优化,而非追求原始准确率

🔗 来源:Hugging Face Blog - DeepSeek V4


Google Deep Research Max:异步自主研究 Agent

Google 发布了 Deep ResearchDeep Research Max,均基于 Gemini 3.1 Pro 构建,标志着自主研究 Agent 的一个新阶段。

核心能力

  • 扩展推理时间计算:Deep Research Max 使用更长的思考链,迭代式搜索、推理和精炼
  • MCP 协议支持:可通过 Model Context Protocol 接入自定义数据源(如企业内部知识库)
  • 多模态研究基础:支持 PDF、CSV、图像、音频、视频等多模态输入作为研究素材
  • 原生数据可视化:自动生成图表和信息图
  • 异步工作流:专为夜间尽职调查报告等企业异步场景设计

企业合作

已与 FactSet、S&P Global、PitchBook 达成金融数据集成合作。目前通过 Gemini API 公开预览。

🔗 来源:Google Blog - Deep Research


Gemini Embedding 2 正式 GA

Google 宣布 Gemini Embedding 2 正式可用(Generally Available),为生产环境的向量检索和 RAG 系统提供了 Google 级别的嵌入模型选择。

🔗 来源:Google Blog - Gemini Embedding 2 GA


学术论文精选

今日 arXiv 上有多篇值得关注的论文:

Agentic AI for Science Automation

[2604.21910] From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation

提出用 Agentic AI 自动将研究问题转化为可执行的科学工作流,实现从语义理解到自动编排的端到端翻译。这是 Agent 技术向科学研究的深度渗透。

GiVA:超越 LoRA 的高效微调

[2604.21901] GiVA: Gradient-Informed Bases for Vector-Based Adaptation

提出了一种新的参数高效微调方法,利用梯度信息构建向量基底,在 LoRA 基础上进一步提升效率。对于在消费级硬件上微调大模型的场景有实际意义。

Prompt 诱导的视觉幻觉

[2604.21911] When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs

研究了提示如何诱导大型视觉语言模型产生幻觉——即使视觉输入清晰明确,不当的提示也能覆盖模型对图像的正确理解。这对 Prompt Engineering 的安全实践有重要启示。


GitHub 趋势:Claude Code 生态爆发

GitHub 热门仓库中 AI 项目占据主导地位,特别值得注意的是 Claude Code 生态的快速扩展:

仓库Stars说明
free-claude-code8,177+免费 Claude Code 终端/VSCode/Discord 集成
huggingface/ml-intern5,032+开源 ML 工程师 Agent,可读论文和训练模型
claude-context (Zilliz)8,915+专为 Claude Code 设计的代码搜索 MCP 服务器

这一趋势表明开发者社区正在围绕 Claude Code 的 Agentic Coding 能力构建完整的开源工具链。


知识库更新

今日更新了以下知识库文档:

  • LLM 基础 → 模型概览 (docs/ai/llm-fundamentals/01-introduction.mdx):
    • DeepSeek V4 从预估信息更新为正式发布规格(V4 Pro 1.6T MoE / V4 Flash 284B MoE)
    • 新增 Hybrid Attention(CSA+HCA)架构说明
    • 更新上下文窗口演进分析,突出百万级上下文在 Agent 场景下的可用性突破

以上内容基于 2026 年 4 月 24 日的公开信息整理。