Rapid-MLX:Apple Silicon 本地大模型推理的极速新体验

2026年5月4日

15

472

Rapid-MLX:Apple Silicon 本地大模型推理的极速新体验

在 Apple Silicon 设备上本地运行大模型,一直是开发者们关注的焦点。然而,传统的本地推理方案往往面临一个尴尬境地:要么速度快但生态对接困难,要么使用便捷但性能受限。许多开发者在 Mac Studio 或 M 系列 MacBook 上使用本地大模型时,常常遇到代码补全等待时间长、工具调用解析失败等问题,只能无奈切换回云端 API。

统一内存架构:性能飞跃的关键

Rapid-MLX 的出现改变了这一局面。这款基于 Apple 自研 MLX 框架构建的 FastAPI 服务,提供了完整的 OpenAI 兼容 API,在 Apple Silicon 上的推理速度比 Ollama 快 2-4 倍,首词响应时间(TTFT)可压至 0.08 秒左右。更重要的是,它原生支持工具调用和提示缓存功能,Cursor、Claude Code、Aider、LangChain 等主流开发工具只需修改 base_url 即可直接接入。

底层优化:KV 缓存与工具调用

在技术实现层面,Rapid-MLX 对 KV 缓存进行了深度优化,采用裁剪和 DeltaNet 状态快照技术,使得续轮推理只需处理增量部分,大幅降低了首词响应延迟。在工具调用方面,内置 17 种解析器,支持 Qwen、DeepSeek、Gemma、GLM 等多种模型,并能自动修复格式错误,对量化后输出崩坏的情况也有较高的容错率。实测中,工具调用通过率可达 100%,这对于依赖 Agent 流程的开发者来说尤为重要。

0.08 秒的 TTFT 和稳定的工具解析能让工作流从“等待 AI”变成“和 AI 一起干活”。

“编辑评论”

从基准测试数据来看,Rapid-MLX 的表现相当亮眼。在 Mac Studio M3 Ultra 上,Qwen3.5-122B 能达到 57 tokens/s,DeepSeek V4 Flash 158B-A13B 可达 31-56 tokens/s 区间。即使在内存较小的设备上,16GB MacBook Air 运行 Qwen3.5-4B 也能达到 160 tokens/s,日常聊天和轻量编码完全够用。32GB 以上内存的机器则可以运行 Nemotron-Nano 30B、Qwen3.6-35B 等更大规模的模型。此外,Rapid-MLX 还支持视觉和音频多模态模型(需安装对应 extras 包)。

安装 Rapid-MLX 非常简单,推荐使用 pip(需要 Python 3.10+):pip install rapid-mlx。启动服务也很便捷,以 Gemma-4-26B 为例,只需运行 rapid-mlx serve gemma-4-26b,首次启动会自动下载模型。服务启动后,任何 OpenAI 兼容的客户端都可以接入使用。需要注意的是,macOS 自带的 Python 版本较老(3.9),建议通过 brew install python@3.12 升级后再安装。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI