Ollama 0.19 底层引擎大换血：苹果 M5 芯片如何实现本地大模型性能翻倍

2026年5月6日

588

Ollama 0.19 底层引擎大换血：苹果 M5 芯片如何实现本地大模型性能翻倍

2026年3月30日，Ollama 0.19 版本悄然发布，没有发布会，没有热搜，甚至 changelog 中只有一句简单的「powered by MLX on Apple Silicon」。但对于使用 Mac 运行本地大模型的用户而言，这个看似微小的版本更新带来的影响，可能比任何一场发布会都更为深远。底层引擎的彻底更换，意味着 Ollama 从此放弃了为 NVIDIA 设计的 llama.cpp，全面拥抱苹果自研的 MLX 框架。

从 llama.cpp 到 MLX：底层引擎的彻底重构

llama.cpp 最初是为 NVIDIA GPU 设计的，其核心假设是 CPU 内存和 GPU 显存相互独立，数据需要在两者之间频繁搬运。在 CUDA 这个世界里，这个逻辑完全正确——RTX 5090 的 GDDR7 带宽高达 1792 GB/s，搬运速度确实够快。然而，苹果自 M1 芯片开始就采用了统一内存架构，CPU、GPU 和神经引擎共享同一块物理内存，根本不存在「搬运」这个概念。问题是 llama.cpp 并不理解统一内存的逻辑——它依然按照 CUDA 的思维模式，将数据从「CPU 侧」搬到「GPU 侧」，即使它们实际上是同一块芯片上的同一个内存池。这多出来的无用功，无形中浪费了苹果芯片的独特优势。 MLX 框架从第一天起就是为统一内存量身打造的。它实现了真正的零拷贝操作：张量直接在统一内存上进行计算，省掉了整个数据搬运环节。Ollama 官方博客公布的数据显示，同一个 Qwen3.5-35B 模型从 llama.cpp 切换到 MLX 后，prefill 速度从 1154 tok/s 提升至 1810 tok/s（+57%），decode 速度从 58 tok

M5 芯片的隐藏大招：GPU 神经加速器

Ollama 博客中有句话容易被忽略：「On Apple's M5, M5 Pro and M5 Max chips, Ollama leverages the new GPU Neural Accelerators.」这意味着苹果在 M5 系列的每个 GPU 核心内部，都塞入了一个专用的 AI 加速单元。这不是 Neural Engine 的简单升级，而是 GPU 内部的硬件级加速。M5 Pro 和 M5 Max 的峰值 GPU 算力因此提升了整整 4 倍。以 M5 Max 为例：40 核 GPU、614 GB/s 带宽、128GB 统一内存。独立硬件评测站 CraftRigs 使用 M5 Max 128GB 运行 Llama 3.1 70B Q4_K_M 模型，实测速度达到 30-45 tok/s，32 核版本约为 30 tok/s。这意味着生成 50 个 token 的回复，仅需 1.1 到 1.7 秒。对比前代产品，M4 Max 跑同样的 70B 模型只有 11-12 tok/s，M3 Max 更是只有 8-9 tok/s。一代之间，性能提升了 3 倍。这个性能

128GB 统一内存意味着：70B 稠密模型完整装入，30-45 tok/s；100B+ MoE 模型完整装入，50-87 tok/s。不需要量化到精度崩坏，不需要 CPU 卸载导致速度暴跌，不需要两张显卡做 NVLink。

“本文分析”

与 RTX 5090 的正面较量

在 70B 以上模型这个级别，M5 Max 展现出了对 RTX 5090 的压倒性优势。NVIDIA 消费级旗舰 RTX 5090 拥有 24GB GDDR7 显存和 1792 GB/s 的带宽，纸面参数是 M5 Max 的 3 倍。在 7B、13B 等小模型上，RTX 5090 确实能够碾压 MacBook。但当模型规模来到 70B 时，情况发生了戏剧性反转。70B 模型的文件大小约 42.5GB，RTX 5090 的 24GB 显存根本无法完整装载。无法装载的权重只能通过 PCIe 总线从系统内存实时搬运到 GPU，这个过程的带宽上限只有约 64 GB/s（PCIe 5.0 x16），和 GPU 显存内部的 1792 GB/s 差了将近 30 倍。瓶颈不在 GPU 算力，而在数据搬运。 CraftRigs 实测 RTX 5090 运行 Llama 3.1 70B Q4_K_M 仅有 8-12 tok/s，而 M5 Max 达到 30-45 tok/s，快了 3 到 4 倍。原因很简单：M5 Max 的 128GB 统一内存可以将 42.5GB 的模型完整装下，不需要任

统一内存：真正的护城河

128GB 统一内存意味着什么？70B 稠密模型可以完整装入，达到 30-45 tok/s；100B+ MoE 模型同样可以完整装入，达到 50-87 tok/s。用户不需要量化到精度崩坏，不需要 CPU 卸载导致速度暴跌，更不需要两张显卡做 NVLink。更重要的是，Ollama 切换到 MLX 带来的性能提升目前只兑现了一小部分模型。一旦 Ollama 将 MLX 支持扩展到 Llama 系列，70B 模型上还能再翻一倍。这是两个叠加的 Buff，现在只开了第一个。价格方面，M5 Max 128GB 的 MacBook Pro 国行约 41,299 元，一台机器包含屏幕、键盘、电池、扬声器，开箱即用。而 RTX 5090 单卡约 16,499 元，但要跑 70B 模型还需要至少 64GB DDR5 主板的额外投入，且 8-12 tok/s 的体验只能算勉强可用。如果想用 NVIDIA 方案达到 M5 Max 同等的 30+ tok/s，现实路径是买两张 RTX 5090 做 NVLink，总价轻松超过 4万元，还没算主板、电源、散热的成本。

如有侵权，请联系删除。

AI 大模型 Ollama Apple M5 MLX 本地部署积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

Ollama 0.19 底层引擎大换血：苹果 M5 芯片如何实现本地大模型性能翻倍

从 llama.cpp 到 MLX：底层引擎的彻底重构

M5 芯片的隐藏大招：GPU 神经加速器

与 RTX 5090 的正面较量

统一内存：真正的护城河

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

Ollama 0.19 底层引擎大换血：苹果 M5 芯片如何实现本地大模型性能翻倍

从 llama.cpp 到 MLX：底层引擎的彻底重构

M5 芯片的隐藏大招：GPU 神经加速器

与 RTX 5090 的正面较量

统一内存：真正的护城河

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的 「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者