Codex的computer use功能为何如此强大?

2026年5月23日

51

228

Codex的computer use功能为何如此强大?

随着AI Agent技术的快速发展,各大厂商纷纷推出了computer use(计算机使用)功能。在这场竞争中,OpenAI的Codex表现尤为突出,被公认为目前最好用的解决方案。那么,Codex究竟有何独到之处?答案要从一次关键的收购说起。

从视觉识别到语义理解

去年秋天,OpenAI悄然收购了一支名为Sky的小团队——正是最早为Apple开发Shortcuts(快捷指令)的原班人马。他们带来了一项在macOS上打磨多年的核心技术:AX Tree(无障碍层级树)。这项技术原本是Apple为视障用户设计的辅助功能,它要求所有应用程序向系统暴露一棵结构化的UI树,使屏幕阅读器能够"读"出界面上每个元素的名称、类型、位置和当前状态。Codex正是将这项技术重新利用,不再依赖截图和视觉识别,而是直接读取UI的语义结构。

AX Tree为何此前未被广泛采用?

要理解Codex的强大之处,有必要回顾一下此前Operator的工作方式。2025年1月发布的Operator采用了一种直观但存在天花板的方法:截取屏幕截图,让AI通过视觉识别判断应该点击哪里,然后模拟鼠标操作。这种"截图-推断-点击"的循环看似合理,却有一个根本性的局限——AI获取的只是像素信息,缺乏对UI元素语义的理解。当界面复杂、元素密集或状态发生变化时,视觉识别容易出现偏差。实测数据显示,在OSWorld基准测试中,Operator得分仅为38.1%,而人类得分高达72.4%,差距可见一斑。

有时候,创新不是发明新东西,从过去的技术里找到新应用,也是一个很好的方式。

“编辑评论”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

信息维度的降维打击

Codex与Operator的本质差异在于信息获取的维度。Operator依赖截图进行视觉识别,需要AI自行推断"那块灰色区域可能是按钮",然后估算坐标;而Codex直接读取AX Tree,获得的是结构化的精确数据——每个元素的名称、类型、是否可点击、精确坐标等。两者的信息质量不在同一层级。正如资深评测者所言,Anthropic和Perplexity的computer use仍在依靠截图操作,而Codex能够"看到"更多、控制更精准,因为截图只是备用手段,语义信息才是核心。

有趣的是,AX Tree并非新技术——它在macOS上已存在近二十年。真正阻碍其应用的是复杂性:AX Tree返回的是XML格式的深层嵌套结构,层级可达二十层,包含大量噪声,且不同应用、不同版本的命名规则各异。要从中稳定提取目标元素,曾经需要大量手动调试,几乎无法自动化。Sky团队经过多年打磨,将解析框架优化至可稳定运行的程度。OpenAI收购的不仅是这支团队,更是这套在真实应用中反复验证的底层能力——证据就藏在配置文件中,执行文件名为"SkyComputerUseClient"。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI