首页 > AI头条  > 正文

百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

2025-05-22 09:07 · 来源: AIbase基地

2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。

PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。此次发布的PaddleOCR3.0全面适配了飞桨框架3.0正式版,不仅提升了文字识别精度,还支持多文字类型识别和手写体识别,满足了大模型应用对复杂文档高精度解析的需求。此外,结合文心大模型4.5Turbo,PaddleOCR3.0显著提升了关键信息抽取精度,并新增了对昆仑芯、昇腾等国产硬件的支持。

微信截图_20250522090536.png

PaddleOCR3.0的核心亮点之一是全场景文字识别模型PP-OCRv5。该模型实现了单一模型支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。与上一代相比,PP-OCRv5的整体识别精度提升了13个百分点,达到了业界领先水平。PP-OCRv5通过统一模型架构实现了多种文字类型的无缝识别,简化了部署流程,提升了识别的总体精度和速度。

在文档解析方面,PaddleOCR3.0推出了通用文档解析方案PP-StructureV3。该方案强化了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序的恢复能力,并可以将结果转换为Markdown和JSON格式。PP-StructureV3在OmniDocBench基准测试中领先众多开源和闭源方案,展现了其在多场景、多版式PDF高精度解析方面的强大能力。

微信截图_20250522090722.png

此外,PaddleOCR3.0还发布了智能文档理解方案PP-ChatOCRv4。该方案原生支持文心大模型4.5Turbo,关键信息抽取精度相比上一代提升了15个百分点。PP-ChatOCRv4结合了大模型和小模型的优势,支持离线使用多模态文档理解模型PP-DocBee2,能够一站式解决版面分析、生僻字、多页PDF、表格、印章识别等复杂文档信息抽取问题。

PaddleOCR3.0的发布,不仅体现了百度在OCR技术上的持续创新,也为广大开发者提供了更加强大和易用的工具,助力开发者快速落地AI应用。

开源地址:

https://github.com/PaddlePaddle/PaddleOCR

  • 相关推荐
  • 荣耀MagicPad 3入网:13英寸LCD大屏+骁龙8 Gen3

    荣耀旗下一款型号为CGA-W00的新机获得认证,支持66W快充,爆料称该机正式命名为荣耀MagicPad3。 预计该机会与荣耀Magic V5同台发布,在本月下旬正式登场。

  • 荣耀MagicPad 3首次实现iOS、鸿蒙、安卓互联分享

    荣耀MagicPad3平板将于7月2日发布,主打跨系统互联功能。该产品首次实现iOS、鸿蒙、安卓三系统手机互联,支持与苹果、OPPO、vivo、小米、华为等品牌设备互传文件。硬件方面搭载骁龙8Gen3芯片,配备13.3英寸3.2K/165Hz LCD屏,内置12450mAh大电池支持66W快充。音质表现突出,配备八扬声器系统,辐射面积达330mm²,最大功率超95W。目前已在荣耀商城等渠道开启预约,引发消费者广泛关注。

  • IDC发布中国金融大模型市场份额报告:百度智能云居首

    IDC最新报告显示,百度智能云以12.2%的市场份额位居中国金融行业生成式AI平台及解决方案厂商首位。2024年中国金融生成式AI市场规模预计达9.14亿元,百度智能云全年营收1.113亿元领跑行业。其全栈大模型解决方案覆盖基础设施、基础模型、生成平台及场景应用,已服务超600家金融机构,包括65%的央企客户。典型案例包括某头部银行构建的全行级知识检索平台,覆盖1.6万用户;银河证券部署的衍生品交易机器人累计处理询价26万次;泰康保险的AI智训系统有效提升代理人获客能力。百度通过"算力云+数据飞轮+模型平台+智能体生态"四轮驱动体系,构建了包含300+培训课程的人才认证体系,并与工信部教考中心联合颁发认证证书,当前持证学员超1万人。2025年Q1财报显示,百度智能云营收同比激增42%,金融领域成为核心增长引擎。

  • YY直播首部AIGC短剧上线:借助百度技术优势 强化生态短剧概念

    YY直播旗下短剧厂牌麦穗上线首部AIGC短剧《权谋之帝王心术》,该剧基于YY主播真实生态故事改编,以主播为人物原型,百度AIGC参与剧本创作并完成视觉呈现,制作成本和周期较真人短剧下降超50%。作为直播行业首部AIGC真人短剧,YY借助百度技术优势参与"百剧计划"重点项目。该剧共4部,首部6月17日上线,用户可通过YY等平台观看。麦穗厂牌主打生态短剧概念,已上线多部原创作品,深度植入YY生态故事并由主播出演主角。通过AIGC技术,该剧制作成本降低58%,周期缩短53%,避免了档期、场地等传统制作难题。未来YY将持续深化"生态故事+AIGC+多平台分发"的特色短剧运营模式。

  • REDMI K Pad搭载8.8英寸3K LCD屏

    近日,REDMI官方陆续揭晓即将在月底发布的REDMI K80至尊版和REDMI K Pad的相关规格。 REDMI K Pad定制了一块8.8英寸的3K LCD屏幕,从形态、尺寸到显示素质,均是为小平板量身打造。8.8英寸这一黄金尺寸,很好地兼顾了便携性与大屏体验。 在屏幕素质上,REDMI K Pad相较于iPad mini优势明显。它拥有更清晰的像素密度,画面显示更加细腻;刷新率更高,能带来更流畅的视觉感受;边框更窄,

  • 华为MatePad Pro 13.2英寸柔光版发布:6299元

    今天下午,华为带来了MatePad Pro 13.2英寸柔光版飞天青配色,售价是6299元(12GB 512GB)。 据悉,MatePad Pro 13.2英寸柔光版采用柔性OLED云晰柔光屏,解决了传统柔光屏抗眩不清晰的问题,重构平板看、写、触三重体验,比前代拥有更舒适、更清晰、更好用的屏幕读写体验。 不论是灯下学习或是户外阅读,传统平板屏幕的反光眩光现象会干扰画面观看效果,且容易引发观看不适、�

  • PK本尊,百度电商新解数字人

    6月15日晚,罗永浩数字人在百度电商完成首场直播,该场直播GMV突破5500万元,数据超过了5月23日罗永浩本人在百度电商直播时的GMV。 进一步对比两场直播,可以看到很多有趣的细节。 “先本尊,后替身”的两场直播带货说明百度电商在过去两年时间内已完成基础建设。百度优选在接受采访时提到,“我们在GMV上没有压力,百度优选作为电商行业的新玩家,历史包袱并不多,

  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • 免费使用!荣耀MagicPad 3平板首发AI PPT功能:自动生成

    荣耀终端股份有限公司平板与IOT产品领域总经理@荣耀平板利用哥 发文透露,荣耀MagicPad 3平板将首发AI PPT功能,可以将文档快速生产为用户想要的PPT。 最重要的是他强调,所有这些功能,包含文档格式转化、AI PPT等都是免费的,而且会覆盖现有在售机型和存量平板。

  • 一场没有“罗永浩”的直播,为百度AI正名

    5500万GMV,这可能是迄今为止,一个AI数字人单次直播带来的最高销量。 过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕“自动地”产生着GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。 但这次,真正的转折点来了。6月15日,罗永浩数字�

今日大家都在搜的词: