首页 > 传媒 > 关键词  > PP-OCRv5最新资讯  > 正文

性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度

2025-09-19 16:08 · 稿源: 站长之家用户

近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。

Blog指出,在OCR场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和“幻觉”输出。相较于VLM,PP-OCRv5采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。

Benchmark数据显示,PP-OCRv5在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优;在Handwritten Chinese、Chinese Pinyin等复杂场景中,仍稳居前列,表现出强泛化能力。

作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5是业界首个单模型支持5种文字类型的超轻量级(<100M)开源模型,且支持复杂手写体识别,可广泛应用于教育行业的试卷作业批改、医疗行业的病历数字化、法律行业的合同笔录数字化等多场景业务需求。

2025年5月,飞桨团队推出PaddleOCR3.0版本,文字识别方案PP-OCRv5与通用文档解析方案PP-StructureV3,以及原生支持文心大模型4.5的智能文档理解方案PP-ChatOCRv4共同构成其三大特色能力。自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 突破 Mini LED!三星 Micro RGB 引航显示进入 Micro 时代

    三星在京东方MALL举办“AI的呵护”家电线下体验展,展出全球首款Micro RGB电视115MR95F。该电视采用Micro RGB技术,实现100% BT.2020色域覆盖,色彩精准度与对比度达到新高度。搭载AI芯片优化画质,支持144Hz刷新率与杜比全景声,定价199,999元。三星借此布局超高端市场,展示Micro RGB+QD-OLED+Micro LED三大技术矩阵,重塑显示行业格局。

  • 行业迈向标准化!销售易Engage2025大会首发AI CRM评价模型

    2025年9月9日,腾讯旗下销售易在京举办第七届用户大会Engage2025。大会以“数驱增长 智赢未来”为主题,汇聚800余位来自世界500强、中国优秀出海企业、在华外资机构及各行业领军企业的高管与业务先锋,共议AI+CRM创新与企业数智化增长的前沿实践。腾讯集团副总裁、政企业务总裁、销售易董事长李强在开幕致辞中强调,CRM系统作为企业核心基础设施,是连接客户与战略的重要桥梁,更是推动持续增长的新引擎。会上,销售易携手中国信息通信研究院发布行业首个《面向企业用户的AI+CRM建设的评价模型课题共研成果》,填补了CRM智能化领域建设指导体系的空白,标志着国内CRM行业步入规范化发展的新阶段。

  • 行业首份AI CRM选型标准发布,销售易携手中国信通院共谋AI CRM未来发展新路径

    中国信息通信研究院与销售易联合发布《智能驱动增长-人工智能客户关系管理系统研究报告》,标志着AI+CRM领域进入标准化发展新阶段。报告系统分析了AI原生架构、大模型应用及行业实践,为产业提供权威框架。销售易凭借市场领导地位、前瞻技术布局及服务大型企业的实践经验,成为行业标杆。此次合作体现了国家智库与领军企业共同推动数字经济高质量发展的示范意义。

  • 为什么你的客户总在悄悄流失? CRM系统到底怎么堵住这些漏洞?

    文章分析了中小企业客户管理的四大痛点:客户档案混乱、销售过程不透明、服务流程低效、决策缺乏数据支持。通过引入CRM系统,企业可实现客户信息整合、销售跟进自动化、服务流程标准化和流失预警。实际案例显示,使用CRM后客户完整度提升至92%,销售跟进及时率提高3.8倍,成功唤醒沉睡客户创造19.8万业绩。文章强调CRM是提升企业竞争力的必备工具,能有效解决客户流失问题。

  • 三星Micro RGB迎来中国市场首秀,定义下一代显示技术新标杆

    9月12日,三星“AI的呵护”家电线下体验展在北京京东MALL开幕,展出包括电视、显示器、生活家电及手机在内的全生态产品矩阵。全球首款Micro+RGB电视国内首秀成为焦点,其采用突破性微米级RGB+LED背光技术,重新定义显示技术边界。AI技术深度赋能,实现从顶级显示设备向智慧终端的关键重塑。三星Micro+RGB内置Vision+AI,集成前沿AI画质音效增强功能,实时优化色彩与音效表现。此外,三星小贝智能语音助手提供更自然、个性化的交互体验。外观上,35.7mm超薄金属机身与简约线条设计,呈现极致高级感。安全性方面,Knox安全解决方案为数据保驾护航,7年免费Tizen+OS升级计划体现品牌对用户长期体验的郑重承诺。活动还展示了Lifestyle艺术系列、Neo+QLED系列与OLED系列产品,共同构建三星电视的完整技术生态。未来,三星将继续凭借扎实的技术积累、深厚的人文关切和前瞻的生态布局,持续推动行业向更高层次迈进,引领智慧生活新体验。

  • RGB-Mini LED、激光、Micro LED三大技术全球领跑!海信IFA 2025狂揽七项顶级大奖

    在2025年柏林国际电子消费品展览会上,海信凭借RGB-Mini LED、激光显示和Micro LED三大显示技术,一举斩获七项国际大奖,包括“全球显示技术创新金奖”等重量级荣誉。其中,全球最大116英寸海信RGB-Mini LED电视UX成为最大赢家,独揽三项大奖。海信激光电视和Micro LED巨幕同样表现抢眼,分别获得最佳家庭娱乐奖等荣誉。此次获奖全面印证了海信在显示领域的综合实力,彰显中国显示技术的全球领先地位。

  • OPPO Watch S官宣:轻薄表皇

    OPPO宣布将于10月16日推出OPPO Watch S智能手表,主打“轻薄表皇”设计,厚度不足9mm,号称目前市面上最薄的智能圆表。搭载全新智能手表系统,操作体验媲美手机,健康配置亦有惊喜。同时具备“健身教练”功能,可自动识别运动并提供超100种运动模式,专业记录数据。此外,发布会还将推出OPPO Find X9和X9 Pro旗舰手机,首批搭载联发科天玑9500平台,出厂预装全新ColorOS 16系统。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 浪漫自在,悦己之声 森海塞尔ACCENTUM Open 真无线耳机 樱花粉上市

    森海塞尔于2025年9月22日在北京发布ACCENTUM Open真无线耳机樱花粉配色。新品在保持卓越音质的同时,以柔和樱花粉点缀耳畔,融合半开放式声学结构与舒适贴耳设计,支持蓝牙5.3多设备连接、双麦克风降噪及28小时续航。耳机单只仅重4.35克,配备IPX4防水,兼顾轻盈佩戴与全天候使用。樱花粉作为继经典黑白后的新配色,将于9月28日正式发售。森海塞尔强调其致力于创新音频解决方案,2025年正值品牌创立80周年,持续为客户打造独特声音体验。

  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

今日大家都在搜的词: