vLLM v0.19.0 发布：异步调度与推测解码合体，多模态与CPU卸载能力全面升级

2026年4月7日

379

vLLM v0.19.0 发布：异步调度与推测解码合体，多模态与CPU卸载能力全面升级

vLLM作为目前生产环境应用最广泛的大模型推理引擎，每次版本更新都牵动着整个AI开发者社区的神经。最新发布的v0.19.0版本带来了大量关键更新，其中最令人振奋的，莫过于两大核心优化——零气泡异步调度与推测解码——终于实现了完美协同。这不仅是技术上的突破，更意味着生产环境中的推理性能天花板被进一步抬高。

零气泡异步调度 × 推测解码：打破性能瓶颈

长期以来，vLLM的异步调度和推测解码这两个最重要的优化特性虽然各自都能正常运行，但放在一起使用时却会产生冲突。问题的根源在于推测解码的拒绝采样结果需要从GPU同步回CPU，这个同步点一卡住，异步调度「CPU和GPU并行干活」的优势就被抵消了。v0.19.0的解决方案是将输入准备也搬到GPU端——拒绝采样的结果直接在GPU上被下一步消费，CPU和GPU之间的同步点被彻底消除，实现了真正意义上的「零气泡」流水线。这意味着开发者现在可以同时享受异步调度的高吞吐和推测解码的低延迟，在此之前，这两个优化往往只能二选一。

Model Runner V2：从实验品到生产级

上次版本中Model Runner V2还打着「实验性」的标签，而这次大量短板被补齐了。新增能力包括：Pipeline Parallelism CUDA图支持，让多卡部署不再掉速；推测解码拒绝采样器现在支持Greedy解码和Logprobs输出；多模态模型终于可以用上推测解码加速；Streaming Inputs实现输入流式处理降低首token延迟；EPLB专家级并行负载均衡为MoE模型提供更好的支持；FP32 draft logits + FP64 Gumbel噪声提升了数值精度。对于纯推理场景（不挂LoRA），MRV2已经可以认真考虑在生产环境部署了。启用方式依然简单：设置环境变量VLLM_USE_V2_MODEL_RUNNER=1即可。

vLLM这一波更新让推理性能的天花板被进一步抬高，从推理引擎到推理平台的转型路径也愈发清晰。

“业界观察”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

ViT全量CUDA图：多模态推理加速

对于经常处理图片和视频请求的用户来说，ViT全量CUDA图捕获是个非常实用的更新。之前vLLM处理视觉编码器时，每次都要重新launch一堆CUDA kernel，小batch场景下这个开销特别明显。现在vLLM将ViT的计算图「录像」下来，之后每次推理直接「回放」，省掉了反复launch kernel的开销。对于Gemma 4、Qwen-VL这类多模态模型，这个优化带来的延迟降低是可体感知的。

CPU KV缓存卸载与DBO通用化

长序列场景下最头疼的就是KV缓存吃显存——一个8K上下文的请求，KV缓存可能就要吃掉好几个GB。v0.19.0引入了通用CPU KV缓存卸载机制：可插拔的CachePolicy允许自定义哪些block优先卸载到CPU内存，Block级别的抢占处理实现了细粒度控制，甚至SSM + Transformer混合架构（如Mamba系列）也能使用这套方案。与此同时，之前只支持特定模型架构的DBO（Dual-Batch Overlap）也实现了通用化，现在不管跑什么模型都能享受微批次重叠带来的吞吐提升。此外，NVIDIA B300/GB300、AMD ROCm 7.2、Intel XPU等新一代硬件都实现了首日适配。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

vLLM 大模型推理多模态推测解码开源积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

vLLM v0.19.0 发布：异步调度与推测解码合体，多模态与CPU卸载能力全面升级

零气泡异步调度 × 推测解码：打破性能瓶颈

Model Runner V2：从实验品到生产级

JimoClaw — 桌面 AI Agent 工作台

ViT全量CUDA图：多模态推理加速

CPU KV缓存卸载与DBO通用化

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

vLLM v0.19.0 发布：异步调度与推测解码合体，多模态与CPU卸载能力全面升级

零气泡异步调度 × 推测解码：打破性能瓶颈

Model Runner V2：从实验品到生产级

JimoClaw — 桌面 AI Agent 工作台

ViT全量CUDA图：多模态推理加速

CPU KV缓存卸载与DBO通用化

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向