2026年4月24日

730

DeepSeek V4预览版深度解析：万亿参数与百万上下文的工程突破

随着大模型竞争进入深水区，长上下文处理能力与推理效率已成为衡量模型实力的核心指标。近日，DeepSeek正式发布V4预览版，首次将模型参数规模推升至1.6万亿级别，同时实现了百万级token的原生上下文支持。这一发布不仅标志着国产大模型在工程能力上的又一次突破，更意味着长程推理与复杂任务处理的技术瓶颈正在被逐步攻克。

技术架构：注意力机制的范式革新

V4系列包含两款MoE架构模型：DeepSeek-V4-Pro与DeepSeek-V4-Flash。前者总参数达1.6万亿，激活参数49B；后者总参数284B，激活参数仅13B。两者均原生支持100万token上下文，这在此前公开的技术方案中尚属首次。更值得关注的是成本曲线的优化——在1M token上下文设置下，V4-Pro的单token推理FLOPs仅为前代V3.2的27%，KV Cache仅需10%；V4-Flash更是极端，分别降至10%和7%。这意味着上下文长度放大了近8倍，但单token算力需求反而大幅下降。

后训练：分化再统一的专家蒸馏

V4最核心的技术突破在于注意力层的重构。传统Transformer的注意力机制要求每个token与前面所有token计算相似度，当上下文从10万扩展到100万时，计算量呈指数级增长，这是长上下文一直难以落地的根本原因。V4提出了CSA（压缩稀疏注意力）与HCA（重压缩注意力）交替叠加的混合方案：CSA将每4个token的KV缓存合并为摘要，再用top-k机制筛选最相关的条目计算注意力；HCA采用更激进的128:1压缩率，但对剩余摘要执行稠密注意力。两者配合滑动窗口分支处理近距离token的细节依赖，形成“粗细粒度结合、稀疏稠密并用”的组合拳。这是DeepSeek首次将稀疏化思路引入Transformer的核心结构。

上下文从128K扩到1M，理论上放大了近8倍，但单token算力需求反而下降了——这是V4最值得关注的技术信号。

“技术观察”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

应用价值：成本重构与场景落地

比架构改动更值得深入探讨的是后训练范式的切换。V3.2采用“混合RL”一次性优化多个目标，V4则改为“分化再统一”的两步走策略：第一步，针对数学、代码、Agent、指令跟随等不同领域分别训练专家模型，每个专家先用高质量数据监督微调，再用强化学习在细分赛道达到最优；第二步，通过On-Policy Distillation（OPD，在策略蒸馏）将十多个领域专家“蒸馏”回一个统一的学生模型。这种思路的本质是让不同专家先各自跑到极致，再收编进同一套权重，绕开了传统混合RL容易导致的能力互相干扰问题。

总结

从应用视角看，V4的定价策略延续了DeepSeek一贯的“底价”定位：V4-Pro每百万token输入仅1元（缓存命中）或12元（缓存未命中），输出24元；V4-Flash更是低至0.2元、1元、2元。三档推理强度（Non-think、Think High、Think Max）则为不同场景提供了灵活选择——Max模式通过强指令注入将上下文和输出拉满，可在HLE测试中从34.5分提升至37.7分，但代价是输出token翻倍。在基准测试中，V4-Pro在Apex Shortlist（90.2%）和Codeforces（Rating 3206）等硬核推理任务上已超越Claude Opus 4.6非思考模式，Agent能力也被官方评价为“优于Sonnet 4.5，接近Opus 4.5非思考模式”。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

大模型 MoE DeepSeek 长上下文 AI技术积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

DeepSeek V4预览版深度解析：万亿参数与百万上下文的工程突破

技术架构：注意力机制的范式革新

后训练：分化再统一的专家蒸馏

JimoClaw — 桌面 AI Agent 工作台

应用价值：成本重构与场景落地

总结

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

DeepSeek V4预览版深度解析：万亿参数与百万上下文的工程突破

技术架构：注意力机制的范式革新

后训练：分化再统一的专家蒸馏

JimoClaw — 桌面 AI Agent 工作台

应用价值：成本重构与场景落地

总结

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向