Peekaboo v3发布:OpenClaw获得真实桌面操作能力

2026年5月11日

30

573

Peekaboo v3发布:OpenClaw获得真实桌面操作能力

近日,OpenClaw项目正式发布Peekaboo v3版本,这是一款专为AI Agent设计的计算机使用(Computer Use)工具。此次更新补足了OpenClaw最关键的能力缺口——让AI不再局限于在聊天框中提供建议,而是能够真实地查看屏幕、操作按钮、执行任务。从“指路”到“驾驶”,这标志着AI Agent在操作真实世界方面迈出了重要一步。

为什么现在变得关键

Peekaboo可以理解为一套跨平台的桌面自动化工具集。它具备屏幕截图、窗口识别、UI元素解析、按钮点击、文本输入、滚动翻页、应用切换、菜单操作等核心能力。与传统脚本最大的区别在于,Peekaboo不仅截取屏幕图像,还会将界面中的控件、窗口、文本、按钮关系整理为结构化数据,形成可追踪、可复盘、可继续操作的“桌面地图”。这意味着AI看到的不再只是一片像素,而是一个充满可操作对象的数字工作空间。

OpenClaw的完整拼图

事实上,Peekaboo并非全新产物早在去年6月就已上线初版,但彼时模型能力尚未完全成熟。视觉模型虽能识别图像,但面对复杂界面时稳定性不足;Computer-Use能力虽能执行操作,但精准度和可靠性仍有欠缺。如今,随着大模型在视觉理解和操作控制两个维度同时突破临界点,AI Agent开始从“偶尔能演示”走向“可持续跑流程”的状态。底层自动化工具的价值随之被放大——模型再聪明,也需要稳定输入和稳定执行的桥梁。Peekaboo正是这座桥梁,把“看见”和“动手”真正连接到了一起。

它让OpenClaw从会聊天变成会干活,从消息系统的边界向操作系统推进了一步。

“编辑观点”

工程细节背后的产品逻辑

社区已经展示了Peekaboo的潜力——有人用它驱动浏览器中的远程iOS模拟器,完成从识别界面、注册屏幕状态、点击目标按钮到等待反馈、继续探索的完整流程。这不再是简单的“AI看懂一张图”,而是“看懂→理解→执行→验证→继续”的完整闭环。每一步都可能出错,但每一步也都被记录下来,可观察、可复盘、可优化。这正是AI Agent从玩具走向工具的分界线。

值得注意的是,Peekaboo v3发布后进入了高频更新模式——在正式版发布当天就连续更新了v3.1.0、v3.1.1、v3.1.2三个版本。这些更新涉及模型目录配置、工具schema定义、打包产物优化、版本标记、窗口捕获路径、daemon调度等工程细节。表面上看,这些内容缺乏戏剧性,却正是AI工具能否真正落地的关键。演示时的行云流水往往掩盖不了实际使用中的各种摩擦:权限问题、路径配置、窗口识别、输入法切换、响应延迟……Peekaboo的密集更新正是在逐一解决这些“最后一公里”问题。好工具的最高境界是让用户感受不到它的存在——按钮该点就点,窗口该找就找,任务该继续就继续。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI