By 小墨
2026年4月7日
16
379
vLLM v0.19.0 发布:异步调度与推测解码合体,多模态与CPU卸载能力全面升级
vLLM作为目前生产环境应用最广泛的大模型推理引擎,每次版本更新都牵动着整个AI开发者社区的神经。最新发布的v0.19.0版本带来了大量关键更新,其中最令人振奋的,莫过于两大核心优化——零气泡异步调度与推测解码——终于实现了完美协同。这不仅是技术上的突破,更意味着生产环境中的推理性能天花板被进一步抬高。
零气泡异步调度 × 推测解码:打破性能瓶颈
长期以来,vLLM的异步调度和推测解码这两个最重要的优化特性虽然各自都能正常运行,但放在一起使用时却会产生冲突。问题的根源在于推测解码的拒绝采样结果需要从GPU同步回CPU,这个同步点一卡住,异步调度「CPU和GPU并行干活」的优势就被抵消了。v0.19.0的解决方案是将输入准备也搬到GPU端——拒绝采样的结果直接在GPU上被下一步消费,CPU和GPU之间的同步点被彻底消除,实现了真正意义上的「零气泡」流水线。这意味着开发者现在可以同时享受异步调度的高吞吐和推测解码的低延迟,在此之前,这两个优化往往只能二选一。
Model Runner V2:从实验品到生产级
上次版本中Model Runner V2还打着「实验性」的标签,而这次大量短板被补齐了。新增能力包括:Pipeline Parallelism CUDA图支持,让多卡部署不再掉速;推测解码拒绝采样器现在支持Greedy解码和Logprobs输出;多模态模型终于可以用上推测解码加速;Streaming Inputs实现输入流式处理降低首token延迟;EPLB专家级并行负载均衡为MoE模型提供更好的支持;FP32 draft logits + FP64 Gumbel噪声提升了数值精度。对于纯推理场景(不挂LoRA),MRV2已经可以认真考虑在生产环境部署了。启用方式依然简单:设置环境变量VLLM_USE_V2_MODEL_RUNNER=1即可。
vLLM这一波更新让推理性能的天花板被进一步抬高,从推理引擎到推理平台的转型路径也愈发清晰。
“业界观察”ViT全量CUDA图:多模态推理加速
对于经常处理图片和视频请求的用户来说,ViT全量CUDA图捕获是个非常实用的更新。之前vLLM处理视觉编码器时,每次都要重新launch一堆CUDA kernel,小batch场景下这个开销特别明显。现在vLLM将ViT的计算图「录像」下来,之后每次推理直接「回放」,省掉了反复launch kernel的开销。对于Gemma 4、Qwen-VL这类多模态模型,这个优化带来的延迟降低是可体感知的。
CPU KV缓存卸载与DBO通用化
长序列场景下最头疼的就是KV缓存吃显存——一个8K上下文的请求,KV缓存可能就要吃掉好几个GB。v0.19.0引入了通用CPU KV缓存卸载机制:可插拔的CachePolicy允许自定义哪些block优先卸载到CPU内存,Block级别的抢占处理实现了细粒度控制,甚至SSM + Transformer混合架构(如Mamba系列)也能使用这套方案。与此同时,之前只支持特定模型架构的DBO(Dual-Batch Overlap)也实现了通用化,现在不管跑什么模型都能享受微批次重叠带来的吞吐提升。此外,NVIDIA B300/GB300、AMD ROCm 7.2、Intel XPU等新一代硬件都实现了首日适配。
如有侵权,请联系删除。
Related Articles
-
Fri Apr 17 2026湖北省智能体公共服务平台启动建设 AI产业有了'公共底座'!
在2026年湖北人工智能产业发展生态大会上,湖北省智能体公共服务平台正式启动建设,目标是解决企业算力成本高、场景落地慢等痛点。
-
Fri Apr 17 2026OpenClaw龙虾、Token词元与大模型、智能体、AI发展新范式全景解析,年度AI大会终极议程公布
2026中国生成式AI大会(北京站)将于4月21-22日举办,主题为“奔赴AGI 重塑未来”,旨在汇聚学界与产业界力量,探讨生成式AI与智能体发展的新范式。
-
Fri Apr 17 2026Pharma.AI 2026春季发布会:驱动制药超级智能未来
英矽智能于4月14日举办Pharma.AI 2026春季发布会,展示在制药领域的最新AI能力与产品模块升级,强调构建决策驱动的AI生态系统。
-
Fri Apr 17 2026深信服受邀分享AI智能体安全治理'新解法'
在2026年世界互联网大会亚太峰会上,深信服副总裁杜智伟提出面向AI智能体的安全治理新范式,强调从内容合规向行为可控转型。
-
Fri Apr 17 2026AI生成内容暴增14倍 重塑网络视听生产体系
《中国网络视听发展研究报告(2026)》显示,我国网络视听用户规模与市场规模持续扩大,AI生成内容数量激增,正在改变内容生产与传播格局。
-
Fri Apr 17 2026深信服受邀分享AI智能体安全治理'新解法'
在2026年世界互联网大会亚太峰会上,深信服副总裁杜智伟就AI智能体安全治理发表演讲,强调应从传统的内容合规向行为可控的治理范式转型,以应对新一代数字员工类智能体带来的复杂风险。
