Browser Use 0.12:弃用 Playwright 拥抱 CDP,浏览器自动化迎来新纪元

2026年5月7日

37

228

Browser Use 0.12:弃用 Playwright 拥抱 CDP,浏览器自动化迎来新纪元

浏览器自动化一直是开发者面临的老大难问题。无论是运营人员需要批量采集竞品数据,还是测试工程师需要编写 E2E 测试脚本,亦或是开发者希望将浏览器操作集成到 AI Agent 工作流中,传统方案都存在门槛高、维护成本大、成功率低等诸多痛点。近期,一个名为 Browser Use 的开源项目发布了 0.12 版本,以近乎颠覆性的架构升级宣告了浏览器自动化领域的新变革。

极简代码实现复杂浏览器任务

Browser Use 是一款由 YC W25 支持、采用 MIT 协议的开源浏览器自动化工具,目前在 GitHub 上已获得超过 90,000 颗星标。0.12 版本最核心的变化在于:彻底弃用了 Playwright,转而采用 Chrome DevTools Protocol(CDP)直接与浏览器通信。这一架构决策带来了显著的性能提升——命令执行延迟从原来的约 100ms 降低至 50ms,速度提升达 2 倍;同时,得益于 CDP daemon 模式下更精简的上下文传递机制,token 消耗量减少了 50%。

视觉识别:彻底告别脆弱的 CSS Selector

在代码层面,Browser Use 0.12 将易用性推向了新的高度。开发者仅需四行 Python 代码即可创建一个能够自主完成复杂任务的浏览器 Agent:导入必要的模块,定义任务目标,选择大语言模型,初始化浏览器实例,然后调用 run() 方法执行。这个 Agent 能够自动识别页面元素、点击按钮、填写表单、截图保存,整个过程无需编写任何 CSS selector。 在 WebVoyager 基准测试(包含 586 个真实网页任务的权威评测集)中,Browser Use 达到了 89.1% 的成功率,这一数字在开源浏览器 Agent 领域目前处于最高水平。WebVoyager 涵盖 Amazon 下单、GitHub 搜索 PR、查询航班等复杂多步骤任务,其难度远超传统的“打开网页读取标题”类玩具基准。

四行代码就能跑的 Agent,代表了浏览器自动化从工具到基础设施的根本性转变。

“技术观察”

CDP 架构的深层价值

0.12 版本的另一项重大突破是引入了基于 Gemini 3 的多模态视觉识别能力。传统浏览器自动化高度依赖 CSS selector,但这种方法在现代 Web 开发中面临严峻挑战:React 组件的动态 className、跨域 iframe、Shadow DOM 结构、反爬虫策略等因素,使得 selector 维护成为一项耗时且脆弱的工作。 视觉识别方案从根本上绕过了这一痛点——Agent 直接分析页面截图,识别“我需要点击哪个输入框”、“哪个是提交按钮”,然后将结构化数据映射到复杂的表单控件中。这种方式不仅消除了 selector 维护成本,更能处理跨域 iframe、文件上传等过去难以自动化场景。当然,视觉方案的代价是延迟增加(单步操作从 5 秒延长至 15-20 秒)和 token 成本上升,因此 0.12.6 版本特别引入了 heavy page DOM cap 机制,在页面复杂度高时自动切换回 DOM 模式以平衡速度与准确率。

云浏览器与 CLI 2.0:构建完整生态

除了核心引擎的升级,Browser Use 0.12 还带来了云浏览器服务和 CLI 2.0 两个重要功能。云浏览器服务支持一键开启,开发者无需在本地配置 Chrome 环境和驱动,即可获得可扩展的云端浏览器实例。更值得关注的是,官方文档明确表示云浏览器设置可以绕过任何网站的验证码保护,这意味着自动化流程不再会被 CAPTCHA 打断。 CLI 2.0 则支持将 Browser Use 集成为 Claude Code 或 Codex 的 skill,使浏览器操作成为 AI 编程助手的原生能力。开发者可以在 Claude Code 会话中直接要求 AI“打开 API 文档查看返回格式”或“测试这个登录流程”,无需切换窗口即可完成完整的开发闭环。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI