本地4B开源模型实现端侧GUI操作:告别Token焦虑,数据全程本地处理

2026年5月7日

87

347

本地4B开源模型实现端侧GUI操作:告别Token焦虑,数据全程本地处理

在AI Agent的开发实践中,GUI自动化操作一直是Token消耗的大户。每次截屏、界面理解、元素定位、执行操作都在持续烧Token,尤其在全自动编程流程中,GUI测试消耗的Token甚至占到整体的一半以上。同时,将截图上传至云端处理也带来了不可忽视的隐私风险。如何在保证操作准确性的同时降低Token成本并确保数据安全,成为业界亟待解决的问题。

纯视觉驱动的跨平台操作能力

近期开源的Mano-P模型为这一困境提供了新的解决思路。Mano-P是一款专为GUI操作设计的端侧视觉-语言-动作(VLA)Agent模型,可在本地设备上直接运行,无需将截图上传云端。目前开源两个版本:72B参数版本在OSWorld Benchmark测试中以58.2%的成功率位居榜首,4B轻量版本则专为端侧设备优化,量化后峰值内存仅需4.3GB,可在Mac mini或MacBook上流畅运行。

本地推理加速:Cider框架的硬件级优化

Mano-P的核心优势在于其纯视觉驱动的工作方式。与传统浏览器自动化工具依赖CDP协议或解析HTML不同,Mano-P直接'看'屏幕截图来理解界面、定位元素、执行点击和输入操作。这种方式使其不局限于浏览器环境,桌面软件、专业工具乃至游戏界面都能有效操控。模型训练数据涵盖20,000+条浏览器操作轨迹和40,000+条桌面操作轨迹,覆盖超过300万个动作步骤,为其强大的泛化能力奠定了基础。

端侧模型不需要具备通用性,而是在某一个具体场景深耕、打穿。

“编辑观点”

端侧运行的效率挑战

本地运行模型的另一大挑战是推理效率。配合Mano-P使用的Cider框架解决了这一痛点——它是首个在Apple GPU上实现硬件加速INT8 TensorOps的框架,基于Apple MLX生态开发。实测数据显示,W8A8模式比MLX原生的W4A16快1.4到1.9倍。这意味着在Mac上运行本地大模型不再是效率瓶颈,而是真正可行的落地方案。

端侧AI的未来展望

在实际测试中,4B版本配合本地推理已能完成复杂的GUI操作任务:自动浏览社交平台并完成点赞评论互动、执行端到端的Web应用测试、甚至操控Canvas渲染的网页游戏。测试表明,虽然4B模型在需要深度推理的场景下表现略逊于72B版本,但其GUI元素定位、按钮点击、表单填写等基础操作能力已相当可靠。配合如Codex等Agent进行任务调度和纠偏,整体效果可媲美云端大模型,且整个过程无需使用云端视觉能力,截图全程不出设备,隐私性得到物理层面的保障。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI