科技日报记者 都芃
中国开源模型再次吸引全球关注。日前,百度文心衍生模型PaddleOCR在国际开源社区GitHub上的星标数突破7.33万,首次超越谷歌旗下开源OCR(光学字符识别)标杆产品Tesseract OCR,成为目前GitHub上星标数最高的OCR项目,得到全球开发者的高度关注与认可。
OCR是指利用图像处理与模式识别技术将文字转换为可编辑文本的计算机视觉技术。1985年,该领域的标杆产品TesseractOCR诞生于惠普实验室,2005年开源后由谷歌接手维护并持续迭代至今,是OCR领域过去四十年的技术标杆。此次PaddleOCR的超越,标志着在AI时代,OCR的技术体系正迎来重构,其与大模型之间的双向赋能关系正得到新的审视。

当前,大模型训练普遍面临数据短缺问题,已有的标准化数据无法满足大模型逐渐扩大的“胃口”。“模型训练对新增数据的需求正在史无前例地增长,而OCR正是连接现实世界与数字世界的重要入口。”PaddleOCR相关技术负责人认为,目前超过80%的信息仍以书籍、合同、表格等传统文本形式呈现,针对这些格式各异的信息,OCR扮演着关键的数据“挖掘机”角色。
OCR技术可以将图像、PDF文档中的文字与版面结构转化为机器可理解的电子化文本,能够为大模型提供更丰富、更真实、更高价值的数据,从而显著拓展大模型的认知边界。因此在AI时代下,OCR已从早期的单一图文识别工具,演进为各家大模型必备的数据入口能力。在这一过程中,谁能构建起更强的OCR技术,谁就更有机会掌握现实世界的信息入口,打造出更加前沿、优质的模型。
在这一背景下,2025年以来,各家人工智能厂商均在OCR领域加大布局投入。此前的1月底,DeepSeek更新发布了DeepSeek-OCR 2模型,可根据图像含义动态重排图像各部分,模拟了人类观看场景的逻辑流程,使得其在处理复杂图片时更智能、更有逻辑,并且在保持极高精度的同时,严格控制了计算成本。此外,智谱、腾讯混元等也都推出了各自的OCR模型。PaddleOCR在GitHub上的星标数也自2024年起开始爆发式增长。
现实世界中,各类文档格式各异,OCR识别质量参差不齐。许多看似微小的细节影响着OCR对信息的识别应用效果。例如,许多纸质文档扫描后往往存在倾斜、弯折、畸变等非规则变形,难以被精准识别。聚焦这一现实痛点,PaddleOCR首次提出异形框定位技术,让“歪文档”也能实现稳定、可规模化解析,解决了传统文档规模化识别的难题。
目前,聚焦真实业务场景中的文档数字化需求,PaddleOCR提供可规模化部署的文字识别与语义解析能力,覆盖110余种语言,支持图文混排、表格结构、公式符号等复杂文档元素的精准解析,可直接输出符合标准格式的结构化数据,实现从图像输入到后续数据处理与智能应用无缝衔接的全流程自动化。
在为AI发展提供数据养料的同时,大模型技术的引入也显著推动了OCR技术加快迭代。
PaddleOCR便是基于百度文心大模型训练而成,二者形成双向赋能关系。PaddleOCR能够以高精度文本提取能力,把文档中的文字、表格、公式等精准捕获;文心大模型则像持续进化的大脑,在视觉理解、跨模态融合上持续突破,把对复杂文档的深层理解不断反哺回PaddleOCR,让它从“认字的工具”蜕变为“读懂世界的利器”。
不久前公布的国际顶级计算机视觉会议CVPR 2026论文录用结果中,2篇PaddleOCR相关研究成果入选。其中一篇关于PaddleOCR轻量化版本PP-OCRv5的研究成果显示,该模型以极小的参数量,借助数据为中心(Data-Centric)的系统化优化策略,在性能上媲美甚至超越了千亿参数的视觉语言大模型。
就在PaddleOCR登顶GitHub不久,其宣布升级服务能力,官网免费每日解析页数由1万提升至2万,用户还可通过OpenClaw直接调用PaddleOCR Skill,免费获取高精度PDF解析能力。同时,PaddleOCR OCEAN生态联盟也正式成立,面向核心开源贡献者、深度企业用户及全球平台伙伴开放,首批成员包括知名开源平台Hugging Face等全球平台伙伴,共同推动OCR技术在更广泛场景中的应用落地。
(受访单位供图)

网友评论