DeepSeek V4 技术报告深度解读：484天的架构升级与开源突破

2026年4月，DeepSeek正式发布V4系列模型，时隔484天带来重大更新。这次发布不仅延续了开源路线，更在架构层面进行了深度革新。V4系列包含V4-Pro（1.6万亿参数）和V4-Flash（2840亿参数）两个版本，均支持100万token上下文窗口，一经发布便引发业界广泛关注。

mHC架构：给残差连接加一层约束

V4最引人注目的技术突破在于其极致的效率优化。在100万token场景下，V4-Pro的单token FLOPs仅为V3.2的27%，KV cache更是压缩到仅剩10%。这一突破意味着长上下文窗口在实际应用中变得真正可行——一个1M的对话或文档场景，过去需要精心管理上下文、频繁切分窗口，如今可以直接“全塞进去看看”。亚马逊硬件工程师评价称，这可能将解决当前行业面临的HBM短缺问题。

混合注意力机制：百万token效率的核心魔法

V4在架构层面引入了mHC（流形约束超连接）机制，这是对传统残差连接的重要升级。传统残差连接自2016年ResNet提出以来十年未有大变，但随着模型深度和参数量持续增长，其信号传递不稳定的缺陷逐渐显现。mHC将残差流的混合矩阵B约束到“双随机矩阵”的流形上（数学上称为Birkhoff polytope），行和列都归一化为1。这个约束带来两个关键优势：矩阵的谱范数天然不超过1，为残差传播套上硬上限；同时这种矩阵在乘法下具有封闭性，即使堆叠多层也能保持数值稳定。DeepSeek通过fused kernel和选择性recomputation，将mHC带来的wall-time开销控制在overlapped pipeline的6.7%。

484天后，我们谦卑地分享这份爱心的劳动。一如既往，我们始终坚持长期主义和全民开源。AGI属于每个人。

“DeepSeek研究员”

V4的注意力层采用CSA（压缩稀疏注意力）和HCA（深度压缩注意力）两种结构交替运行的架构。CSA先通过带学习权重的attention-like机制将每m个token的KV entries压缩成一个，再利用轻量indexer计算每个query token与压缩KV块的相关性分数，最后在top-k压缩块上做Multi-Query Attention。HCA则更激进地将128个token压成一个块，进行全量注意力计算。两者分工明确：CSA适合token级别的精细检索，HCA适合长距离全局信号汇总。V4将二者层层交替（Pro有61层，Flash有43层），既不遗漏细节，也不被细节拖慢速度。此外，V4还加入了Q/KV normalization、Partial RoPE、sliding window attention辅助分支和attention sink等工程trick，全面优化长序列表现。

V4在训练中采用了Muon作为主优化器，替换了传统的AdamW。Muon由Keller Jordan团队（现任职于OpenAI）提出，基于矩阵正交化思想优化2D参数矩阵。Kimi K2是首个在LLM规模上验证Muon可行性的案例——2025年Moonshot用Muon配合QK-Clip变种训练了1T参数的MoE，全程零崩溃。DeepSeek则走了另一条路：他们采用hybrid Newton-Schulz迭代，分两段进行（前8步激进、后2步温和），并通过在注意力架构中对query和KV做RMSNorm从源头防止logits爆炸，而非依赖QK-Clip。这种跨团队的技术共享与各自独立演化，正是2026年开源社区最有活力的体现。

Muon优化器：从Kimi到DeepSeek的技术演进

在后训练阶段，V4采用了On-Policy Distillation（OPD）方法替代传统的混合RL流程。具体分为两步：先在数学、代码、Agent、指令跟随四个领域各自训练domain specialist expert，再用OPD将这些expert合并进统一的student模型。在预训练数据量上，V4相比V3实现了翻倍——V3仅用14.8T token，而V4-Flash和V4-Pro分别消耗32T和33T。训练过程中还出现了loss spike问题，DeepSeek通过Anticipatory Routing和SwiGLU Clipping两个“土办法”解决，论文中团队也坦承“底层机理仍是open question”——这种诚实态度在万亿级模型训练中颇为罕见。

如有侵权，请联系删除。

AI大模型 DeepSeek 开源技术报告模型架构积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

DeepSeek V4 技术报告深度解读：484天的架构升级与开源突破

mHC架构：给残差连接加一层约束

混合注意力机制：百万token效率的核心魔法

Muon优化器：从Kimi到DeepSeek的技术演进

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

数智重构矿山新生态：华夏天信以AI Agent与SDC等技术领跑第24届太原煤炭展

智造无限！全流程AI智能方案重磅亮相CCMT 2026

东方有线“爱管家”亮相CCBN2026，AI居家康养智能体引爆智慧家庭新生态

天鹜科技发布MatwingsVenus™，给AI一个共享实验室

“龙虾”退潮，智能体PC进场：英特尔押注混合AI的普及拐点

【融资信息】上市公司密集投资Rokid，AI眼镜赛道加速卡位