2026年5月4日

472

Rapid-MLX：Apple Silicon 本地大模型推理的极速新体验

在 Apple Silicon 设备上本地运行大模型，一直是开发者们关注的焦点。然而，传统的本地推理方案往往面临一个尴尬境地：要么速度快但生态对接困难，要么使用便捷但性能受限。许多开发者在 Mac Studio 或 M 系列 MacBook 上使用本地大模型时，常常遇到代码补全等待时间长、工具调用解析失败等问题，只能无奈切换回云端 API。

统一内存架构：性能飞跃的关键

Rapid-MLX 的出现改变了这一局面。这款基于 Apple 自研 MLX 框架构建的 FastAPI 服务，提供了完整的 OpenAI 兼容 API，在 Apple Silicon 上的推理速度比 Ollama 快 2-4 倍，首词响应时间（TTFT）可压至 0.08 秒左右。更重要的是，它原生支持工具调用和提示缓存功能，Cursor、Claude Code、Aider、LangChain 等主流开发工具只需修改 base_url 即可直接接入。

底层优化：KV 缓存与工具调用

在技术实现层面，Rapid-MLX 对 KV 缓存进行了深度优化，采用裁剪和 DeltaNet 状态快照技术，使得续轮推理只需处理增量部分，大幅降低了首词响应延迟。在工具调用方面，内置 17 种解析器，支持 Qwen、DeepSeek、Gemma、GLM 等多种模型，并能自动修复格式错误，对量化后输出崩坏的情况也有较高的容错率。实测中，工具调用通过率可达 100%，这对于依赖 Agent 流程的开发者来说尤为重要。

0.08 秒的 TTFT 和稳定的工具解析能让工作流从“等待 AI”变成“和 AI 一起干活”。

“编辑评论”

从基准测试数据来看，Rapid-MLX 的表现相当亮眼。在 Mac Studio M3 Ultra 上，Qwen3.5-122B 能达到 57 tokens/s，DeepSeek V4 Flash 158B-A13B 可达 31-56 tokens/s 区间。即使在内存较小的设备上，16GB MacBook Air 运行 Qwen3.5-4B 也能达到 160 tokens/s，日常聊天和轻量编码完全够用。32GB 以上内存的机器则可以运行 Nemotron-Nano 30B、Qwen3.6-35B 等更大规模的模型。此外，Rapid-MLX 还支持视觉和音频多模态模型（需安装对应 extras 包）。

安装 Rapid-MLX 非常简单，推荐使用 pip（需要 Python 3.10+）：pip install rapid-mlx。启动服务也很便捷，以 Gemma-4-26B 为例，只需运行 rapid-mlx serve gemma-4-26b，首次启动会自动下载模型。服务启动后，任何 OpenAI 兼容的客户端都可以接入使用。需要注意的是，macOS 自带的 Python 版本较老（3.9），建议通过 brew install python@3.12 升级后再安装。

如有侵权，请联系删除。

大模型 Apple Silicon MLX 本地推理 AI 积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

Rapid-MLX：Apple Silicon 本地大模型推理的极速新体验

统一内存架构：性能飞跃的关键

底层优化：KV 缓存与工具调用

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

Rapid-MLX：Apple Silicon 本地大模型推理的极速新体验

统一内存架构：性能飞跃的关键

底层优化：KV 缓存与工具调用

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的 「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者