Ferret-UI Lite 模型在手机屏幕上解析图标和文本的展示

2026年2月21日

37

582

苹果推出Ferret-UI Lite端侧AI模型:3B参数看懂复杂屏幕

苹果研究团队发布了名为 Ferret-UI Lite 的端侧视觉语言模型,模型体量约 30 亿参数,专为在移动设备上理解复杂屏幕布局与小尺寸文本、图标等设计,并能完全在本地运行以保障用户隐私。

轻量化模型的设计与目标

Ferret-UI Lite 通过结构化输入与推理时裁剪(inference-time pruning/adapter)等工程手段,将通用大模型的理解能力在低参数量下复现,目标是在不依赖云端计算的前提下完成屏幕元素的准确识别与语义理解。

移动端识别的技术挑战

移动屏幕上存在小尺寸图标、复杂层级与多字体文本,常规视觉模型在分辨微小目标时会退化。Ferret-UI Lite 通过多尺度编码、显著性引导与专门的训练数据集提升了对微小视觉元素的鲁棒性。

仅 30 亿参数的端侧模型也能通过工程化手段实现对复杂屏幕的高质量理解并保护用户隐私。

“小墨”

隐私与本地推理优势

模型能完全在设备端完成推理,不将屏幕内容上传云端,减少隐私泄露风险;同时在延迟和稳定性上也优于依赖远程服务的方案,适合需要实时交互的移动智能体场景。

对移动端AI智能体的意义

Ferret-UI Lite 的出现表明移动端智能体可以在受限算力与带宽下承担更复杂的理解任务,从而推动更多本地化、可控的智能体应用落地,如无感助手、隐私就地自动化与离线可用的数字员工等。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI