PaddleOCR 3.5 发布:浏览器端 OCR 与文档格式转换全面升级

2026年4月21日

64

517

PaddleOCR 3.5 发布:浏览器端 OCR 与文档格式转换全面升级

在人工智能技术飞速发展的今天,光学字符识别(OCR)作为连接物理世界与数字世界的关键技术,正在从单纯的后端能力逐步走向前端应用场景。海量文档中的结构化数据提取、浏览器内的实时识别需求,以及多格式文档的高效转换,已成为当今 AI 应用开发中的重要课题。百度飞桨团队于近日正式发布 PaddleOCR 3.5 版本,带来了一系列重磅更新。

浏览器端轻量化 OCR 部署

本次更新的最大亮点之一是推出了浏览器端 OCR 解决方案——PaddleOCR.js。在 Agent 时代,越来越多的智能体需要直接感知和理解用户界面上的信息,而让数据在不离开浏览器的情况下完成识别,不仅是对用户隐私的保护,更是降低系统复杂度、实现轻量化部署的关键。

多格式文档解析与转换

PaddleOCR.js 基于 ONNX Runtime Web 构建,同时支持 WebGPU 和 Wasm 两种加速后端,可根据用户设备自动选择最优方案。开发者可以通过 Worker 模式将推理过程放在后台线程运行,避免阻塞主线程,保障页面交互的流畅性。目前该库已适配 Chrome、Safari 等主流浏览器。 从接口设计来看,PaddleOCR.js 与 Python 版本的调用风格保持了较高一致性。Python 侧通过 PaddleOCR(...) 初始化并调用 predict,浏览器侧则通过 PaddleOCR.create({...}) 初始化后同样调用 predict 得到推理结果。这种统一的设计让已有 Python 开发经验的用户可以几乎零成本迁移到 Web 端。

让数据不离开浏览器就能完成识别,不仅是对隐私的保护,更是降低系统复杂度、实现真正轻量化部署的关键一步。

“飞桨团队”

全面适配 Transformers 推理后端

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI