2026年5月23日

228

Codex的computer use功能为何如此强大？

随着AI Agent技术的快速发展，各大厂商纷纷推出了computer use（计算机使用）功能。在这场竞争中，OpenAI的Codex表现尤为突出，被公认为目前最好用的解决方案。那么，Codex究竟有何独到之处？答案要从一次关键的收购说起。

从视觉识别到语义理解

去年秋天，OpenAI悄然收购了一支名为Sky的小团队——正是最早为Apple开发Shortcuts（快捷指令）的原班人马。他们带来了一项在macOS上打磨多年的核心技术：AX Tree（无障碍层级树）。这项技术原本是Apple为视障用户设计的辅助功能，它要求所有应用程序向系统暴露一棵结构化的UI树，使屏幕阅读器能够"读"出界面上每个元素的名称、类型、位置和当前状态。Codex正是将这项技术重新利用，不再依赖截图和视觉识别，而是直接读取UI的语义结构。

AX Tree为何此前未被广泛采用？

要理解Codex的强大之处，有必要回顾一下此前Operator的工作方式。2025年1月发布的Operator采用了一种直观但存在天花板的方法：截取屏幕截图，让AI通过视觉识别判断应该点击哪里，然后模拟鼠标操作。这种"截图-推断-点击"的循环看似合理，却有一个根本性的局限——AI获取的只是像素信息，缺乏对UI元素语义的理解。当界面复杂、元素密集或状态发生变化时，视觉识别容易出现偏差。实测数据显示，在OSWorld基准测试中，Operator得分仅为38.1%，而人类得分高达72.4%，差距可见一斑。

有时候，创新不是发明新东西，从过去的技术里找到新应用，也是一个很好的方式。

“编辑评论”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

信息维度的降维打击

Codex与Operator的本质差异在于信息获取的维度。Operator依赖截图进行视觉识别，需要AI自行推断"那块灰色区域可能是按钮"，然后估算坐标；而Codex直接读取AX Tree，获得的是结构化的精确数据——每个元素的名称、类型、是否可点击、精确坐标等。两者的信息质量不在同一层级。正如资深评测者所言，Anthropic和Perplexity的computer use仍在依靠截图操作，而Codex能够"看到"更多、控制更精准，因为截图只是备用手段，语义信息才是核心。

有趣的是，AX Tree并非新技术——它在macOS上已存在近二十年。真正阻碍其应用的是复杂性：AX Tree返回的是XML格式的深层嵌套结构，层级可达二十层，包含大量噪声，且不同应用、不同版本的命名规则各异。要从中稳定提取目标元素，曾经需要大量手动调试，几乎无法自动化。Sky团队经过多年打磨，将解析框架优化至可稳定运行的程度。OpenAI收购的不仅是这支团队，更是这套在真实应用中反复验证的底层能力——证据就藏在配置文件中，执行文件名为"SkyComputerUseClient"。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

AI OpenAI Codex computer use AX Tree 积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

Codex的computer use功能为何如此强大？

从视觉识别到语义理解

AX Tree为何此前未被广泛采用？

JimoClaw — 桌面 AI Agent 工作台

信息维度的降维打击

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

Codex的computer use功能为何如此强大？

从视觉识别到语义理解

AX Tree为何此前未被广泛采用？

JimoClaw — 桌面 AI Agent 工作台

信息维度的降维打击

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向