只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型。

2025-10-23 14:57 · 稿源：数字生命卡兹克公众号

声明：本文来自于微信公众号数字生命卡兹克，作者：数字生命卡兹克，授权站长之家转载发布。

这几天，OCR这个词，绝对是整个AI圈最火的词。

因为DeepSeek-OCR，甚至让OCR这个赛道文艺复兴，又给直接带火了。

整个Hugging Face的趋势版里，前4有3个OCR，甚至Qwen3-VL-8B也能干OCR的活，说一句全员OCR真的不过分。

然后在我上一篇讲DeepSeek-OCR文章的评论区里，有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比，也有很多人都在问，能不能再解读一下百度那个OCR模型（也就是PaddleOCR-VL）。

所以我也觉得，不如就来写一篇关于PaddleOCR-VL的内容吧。

非常坦诚的讲，百度家的东西，我写的一直都会非常谨慎。

但是这个PaddleOCR-VL，是我真的觉得值得一写的。

因为，确实很牛逼。

首先提一下，PaddleOCR这个项目本身，不是啥新东西，这是百度一直都在做的项目，很多年了，最早期甚至可以追溯到2020年，也是一直是开源的姿态。

后来他们就不断的迭代，整整5年时间，成了整个OCR领域最火的开源，现在也应该是现在Github上Star最高的OCR项目，有60K，基本属于断档领先。

而PaddleOCR-VL模型，就是他们前几天开源了他们的PaddleOCR系列里最新的模型，这也是第一次，把大模型用在了整个OCR文档解析的最核心的位置。

整个模型只有0.9B，但是几乎在OCR的评测集叫OmniDocBench v1.5的所有子项，都做到了SOTA。

左边有三个类型，分别是传统的多阶段流水线系统、通用多模态大模型、专门为文档解析训练的视觉语言模型。

PaddleOCR-VL参数最小，效果最好，然后因为发的刚好早了三四天，所以表里没有DeepSeek-OCR的跑分，但是OmniDocBench v1.5的最新跑分昨天也出炉了，DeepSeek-OCR综合跑分是86.46，比PaddleOCR-VL的92.56还是低了大概6分，不过也能理解。

PaddleOCR-VL确实足够的猛，在垂直模型领域，把性价比做到了极致。

你可能会有一点点好奇，为啥一个0.9B的模型，能比其他的大模型都要强。

除了确实专精这个领域之外，还有个非常有趣的架构，是我觉得单独可以说一下的。

也是长上下文和避免幻觉的一种非常有趣的解法。

很多的多模态大模型，是端到端的，他们干OCR的方式其实是非常低效的。

就是你把一整张A4纸扔给它，它需要一口气把这张图上所有的文字、表格、公式、图片、排版等等全都看懂，然后再一口气生成一个完美的Markdown，这个难度，其实也挺地狱级的。

毕竟模型需要同时理解:“哦，这块是个表，它在页面的左上角，这个表有3行5列，哦表头是这个，哦内容是那个，它旁边的这段文字是在解释这个表……哦哎卧槽我第一个事是要干啥来着。。。”

PaddleOCR-VL的做法就挺高效好玩的，它的架构，就两步:

第一步，先让专干布局分析的传统视觉模型上。这个玩意叫PP-DocLayoutV2，它干的活儿特纯粹，就是“框”。

它以极快的速度扫一眼整张图，然后把一些区域都框起来，然后告诉你:“报告老板，这里是标题，那里是正文，这块是个表，那块是公式。” 而且每个框的阅读顺序，也都是符合人类的阅读顺序的。

这个活儿，在CV领域已经很成熟了，根本不需要一个大模型来搞。

第二步，就是主力登场。这个主力，就是最核心的这个0.9B的PaddleOCR-VL模型。

它现在接到的任务，根本不是去看那张复杂的A4纸。它接到的是一堆被PP-DocLayoutV2裁好的小图片。

一个任务是:“这是一张200x500的小图，我（PP-DocLayoutV2）已经告诉你这是个表了，你(PaddleOCR-VL)给我把它转成Markdown。”

下一个任务是:“这是一张50x50的小图，我知道这是个公式，你给我转成LaTeX。”

然后循环往复，最后，又准又快。

所以这种做法，根本不需要复杂的几百B的大模型，直接上0.9B的模型，却能达到最完美的效果。

我之所以把这个点单独拿出来说，也是想表达我的一个观点:

在普通用户眼里，其实很多时候技术根本没有优劣，能解决用户的问题，就是最牛逼的技术。黑猫白猫，能抓到耗子的，就是好猫。

至少我认为，PaddleOCR-VL的做法，就非常的巧劲。

我也专门找了几类特别有代表性，处理起来比较头疼的图片来给大家看一下实测的效果。

首先肯定是扫描PDF，这种应该是重中之重，比如下面这张非常糊的扫描件截图，肉眼看起来也会有点吃力。

糊不拉几的，我眼睛看着都疼。

而把这个扔给PaddleOCR-VL，它处理起来很顺利，先是把需要识别的地方框了出来，并打上了阅读循序的序号。

然后是第二步，分块识别出结果，效果很不错，公式也识别出来了。

我详细核对了2、3遍，发现确实一个字都没错。

最后的那个+号后面之所以没东西了，是因为我截图的时候，不小心让搜狗输入法的图标给挡住了。。。

我又找了一些手写笔记的照片去试，这玩意绝对是OCR领域的硬骨头。

不管是中文还是英文，只要字迹别太潦草到像天书一样，PaddleOCR-VL给出的识别结果准确率都还挺在线的。

对比很多工具碰到手写基本就歇菜的情况，这个已经很能打了。

当然，前提是你的手写字得大致能看懂，如果是医生的那种字，我觉得神仙来了都没用。。。

然后是论文这种排版密集的。报纸那小字、多分栏、紧凑的布局，对布局分析和识别都是不小的挑战。

实测下来，PaddleOCR-VL对多栏的处理还比较稳定，阅读顺序也能捋顺，文字识别本身也没啥毛病，基本全对，总体效果挺好。

因为支持端到端的解析，所以能给你把一些图表啥的都给你还原回来。

这个点非常的牛逼。

还有就是票据，像发票收据这些。格式虽然相对固定，但里面混着机打字、数字、手写补充、甚至盖章，挺复杂的。

PaddleOCR-VL在处理这类半结构化文档、抓取关键信息时表现还行，我自己跑了很多次，不能说百分百没差错，但在同类模型里，已经算非常靠谱的了。

感觉这个已经完全可以替换我们现在多维表格上用的视觉大模型，接入到我们公司财务的多维表格系统里面了。。。

准确性强很多，真的能节省财务的不少时间。

还有那种大型表格，这就是重头戏了。

不管是论文里那种带合并单元格的复杂表，还是财报里密密麻麻的数字表，甚至是没啥框线的表，PaddleOCR-VL的表格结构识别能力是有一点让我惊讶的，不光能认出格子里面的字，还能把表格的行列关系比较好地还原出来，这对我们的一些自动化信息提取非常有帮助。

比如就是上文里面的那个跑分图。

识别提取出来之后，没有一丁点问题，这个是有点离谱的。

总的来说，这些实测跑下来，PaddleOCR-VL在处理这些复杂和刁钻的场景时，表现确实可圈可点。

而且实测确实会比DeepSeek-OCR准确更高，DeepSeek-OCR提取的时候总是会错一两个字，PaddleOCR-VL是一字不错，当然你不能把DeepSeek-OCR纯看成是一个纯OCR模型，毕竟意义还是不太一样。

我们自己其实有很多飞书多维表格的信息提取工作流，也已经在考虑换成PaddleOCR-VL了。

比如我们经常需要，批量上传一些各个平台的数据截图，然后提取里面的一些结构化信息。

现在都是接了一些比较大的多模态大模型来做提取的，有一说一，从价格上来说，会比PaddleOCR-VL这种贵很多，而且有时候还会出错。

感觉把PaddleOCR-VL接进去，会是目前的最优解。

目前PaddleOCR-VL已经开源，网址在此:

https://github.com/PaddlePaddle/PaddleOCR

我本来想跟DeepSeek-OCR一样，给大家手搓一个Windows的本地整合包，让大家能开箱即用，结果因为不同于一些常规的大模型，折腾了一夜，干到凌晨4点多，两眼发黑，还是没做出来，这个只能说对不起大家，还是有点太菜了= =

所以现阶段，大家如果有自己部署能力的，可以自己根据PaddleOCR Github上的部署教程来部署到本地。

只是想用一下的，不想折腾部署的，可以去各大demo平台上用官方自己部署的体验版本。

飞桨:https://aistudio.baidu.com/application/detail/98365

魔搭:https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

Hugging Face:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

最后，还是想多说几句。

DeepSeek-OCR探索的上下文光学压缩确实非常新，也打开了大家对人类视觉感知的一些新的想象。

百度的PaddleOCR-VL，更是从实际出发，在一个细分领域达到了SOTA，成为了这个领域效果最好的模型。

高效、准确，也能实实在在地提升我们处理文档信息的效率。

两者都是非常优秀的工作，没有谁比谁强。

都是在自己领域。

最亮眼的仔。

（举报）

相关推荐

关键词：

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
见所未见百微新生索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

索尼将于2025年10月发布首款1G大师系列微距镜头FE 100mm F2.8 Macro GM OSS。新品实现1.4倍放大率，搭配增距镜可达2.8倍，配备4个XD线性马达使自动对焦性能提升1.9倍。采用11片圆形光圈与第二代纳米AR镀膜技术，搭载专为微距设计的光学防抖系统。镜头重646克，具备防尘防潮设计，建议零售价9,299元。

索尼微单微距镜头 G大师系列
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
iPad、Mac新品京东跌破底价国补可用地区、优惠力度都秒杀隔壁

10月22日，搭载M5芯片的MacBook Pro和iPad Pro正式开售，起售价分别为12999元和8999元。恰逢双11大促，各大电商平台推出不同优惠：京东MacBook Pro最高优惠4000元，iPad Pro优惠超2000元；天猫提供消费券和88VIP专属折扣，MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障，结合性能升级综合决策。

M5芯片 MacBook Pro
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

华为FreeClip 2耳夹耳机10月20日开售，售价1299元。预售1小时销量破8万台，市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器，算力提升10倍；配备超澎湃双引擎单元，响度与低频动力均翻倍。支持L2HC高清音频编码，音质清晰。新增鸿蒙AI耳边助手，支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构，单耳重5.1克，佩戴舒适且具备IP57防护。续航方面单次使用9小时，配合充电仓总续航达38小时，充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

华为FreeClip2 耳夹耳机 L2HC音频编码
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI
中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

中国公司东方超算发布Deep X G20系列AI工作站，在MLPerf测试中性能超越NVIDIA DGX Spark达82%，价格持平，实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡，AI算力达1824 TOPS，体积仅2.7L。通过三大技术创新实现突破：智能异构计算引擎提升资源利用率40%；统一推理运行时支持多框架；深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断，已在量化金融、医疗影像等领域实现显著投资回报，标志着中国AI硬件实现重要突破。

今日大家都在搜的词：

热文

3 天
7天

只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型。

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek开源3B OCR模型：长文本识别达97%精度

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

见所未见百微新生索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

iPad、Mac新品京东跌破底价国补可用地区、优惠力度都秒杀隔壁

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

荐OpenAI 推出浏览器：“让位吧，Chrome”

中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

真我GT8发布：售价2899元起骁龙8至尊版双芯

天猫双11战报发布：苹果iPhone成交额破纪录

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

火车免费坐？12306今起又上新功能：积分可兑换车票

站长商机