vLLM v0.19.0 发布:异步调度与推测解码合体,多模态与CPU卸载能力全面升级

2026年4月7日

16

379

vLLM v0.19.0 发布:异步调度与推测解码合体,多模态与CPU卸载能力全面升级

vLLM作为目前生产环境应用最广泛的大模型推理引擎,每次版本更新都牵动着整个AI开发者社区的神经。最新发布的v0.19.0版本带来了大量关键更新,其中最令人振奋的,莫过于两大核心优化——零气泡异步调度与推测解码——终于实现了完美协同。这不仅是技术上的突破,更意味着生产环境中的推理性能天花板被进一步抬高。

零气泡异步调度 × 推测解码:打破性能瓶颈

长期以来,vLLM的异步调度和推测解码这两个最重要的优化特性虽然各自都能正常运行,但放在一起使用时却会产生冲突。问题的根源在于推测解码的拒绝采样结果需要从GPU同步回CPU,这个同步点一卡住,异步调度「CPU和GPU并行干活」的优势就被抵消了。v0.19.0的解决方案是将输入准备也搬到GPU端——拒绝采样的结果直接在GPU上被下一步消费,CPU和GPU之间的同步点被彻底消除,实现了真正意义上的「零气泡」流水线。这意味着开发者现在可以同时享受异步调度的高吞吐和推测解码的低延迟,在此之前,这两个优化往往只能二选一。

Model Runner V2:从实验品到生产级

上次版本中Model Runner V2还打着「实验性」的标签,而这次大量短板被补齐了。新增能力包括:Pipeline Parallelism CUDA图支持,让多卡部署不再掉速;推测解码拒绝采样器现在支持Greedy解码和Logprobs输出;多模态模型终于可以用上推测解码加速;Streaming Inputs实现输入流式处理降低首token延迟;EPLB专家级并行负载均衡为MoE模型提供更好的支持;FP32 draft logits + FP64 Gumbel噪声提升了数值精度。对于纯推理场景(不挂LoRA),MRV2已经可以认真考虑在生产环境部署了。启用方式依然简单:设置环境变量VLLM_USE_V2_MODEL_RUNNER=1即可。

vLLM这一波更新让推理性能的天花板被进一步抬高,从推理引擎到推理平台的转型路径也愈发清晰。

“业界观察”

ViT全量CUDA图:多模态推理加速

对于经常处理图片和视频请求的用户来说,ViT全量CUDA图捕获是个非常实用的更新。之前vLLM处理视觉编码器时,每次都要重新launch一堆CUDA kernel,小batch场景下这个开销特别明显。现在vLLM将ViT的计算图「录像」下来,之后每次推理直接「回放」,省掉了反复launch kernel的开销。对于Gemma 4、Qwen-VL这类多模态模型,这个优化带来的延迟降低是可体感知的。

CPU KV缓存卸载与DBO通用化

长序列场景下最头疼的就是KV缓存吃显存——一个8K上下文的请求,KV缓存可能就要吃掉好几个GB。v0.19.0引入了通用CPU KV缓存卸载机制:可插拔的CachePolicy允许自定义哪些block优先卸载到CPU内存,Block级别的抢占处理实现了细粒度控制,甚至SSM + Transformer混合架构(如Mamba系列)也能使用这套方案。与此同时,之前只支持特定模型架构的DBO(Dual-Batch Overlap)也实现了通用化,现在不管跑什么模型都能享受微批次重叠带来的吞吐提升。此外,NVIDIA B300/GB300、AMD ROCm 7.2、Intel XPU等新一代硬件都实现了首日适配。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI