首页 > 传媒 > 关键词  > PP-OCRv5最新资讯  > 正文

性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度

2025-09-19 16:08 · 稿源: 站长之家用户

近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。

Blog指出,在OCR场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和“幻觉”输出。相较于VLM,PP-OCRv5采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。

Benchmark数据显示,PP-OCRv5在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优;在Handwritten Chinese、Chinese Pinyin等复杂场景中,仍稳居前列,表现出强泛化能力。

作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5是业界首个单模型支持5种文字类型的超轻量级(自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Creators’ App迎来重大更新

    索尼与分秒帧联合推出云端影像创作平台ICE-Cloud,集成索尼先进影像技术与高效云端协作能力,为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用,实现素材自动上传、云端管理、在线审片和项目协同,打破时空限制,提升创作效率。通过Creators’ App连接相机与云端,实现即拍即传、异地实时协作,致力于打造新一代创意工作流。

  • 三星Micro RGB色彩技术亮相进博,智绘AI家电新视界

    三星在第八届进博会上紧扣AI浪潮,展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视,融合微米级LED创新显示与AI功能,实现精准控光、更高亮度和真实色彩;同时展出144英寸Micro LED及纤薄折叠手机,体现从超大屏到移动显示的技术实力。全线产品集成Vision AI,通过影像增强、自适应音效等技术优化视听体验,并借助Galaxy AI提供个性化服务,强化在移动AI领域的领先地位。

  • 销售易CRM×腾讯电子签:告别签约“拖慢症”,帮企业签得快、管得稳、查得清

    本文探讨企业数字化经营中合同签署的重要性及传统签约模式的痛点,提出销售易CRM与腾讯电子签集成方案。传统签约存在流程冗长、异地效率低、版本混乱、合规风险等问题。通过三个案例展示该方案如何实现合同起草、签署、归档全流程线上化,提升签署速度、管理稳定性及数据可追溯性,帮助企业在销售、渠道管理、货单签收等场景实现高效合规运营。

  • 走进腾讯:销售易X中国德商会,共探CRM助力跨国企业深耕中国新路径

    近日,腾讯云携手中国德国商会等机构在北京举办“中德商会走进腾讯”创新主题活动。销售易作为腾讯旗下CRM企业受邀出席,与奥迪、大众、拜耳等60余家德企共话数字化转型路径。销售易分享了其NeoCRM系统如何融合本土智慧与全球视野,帮助跨国企业应对在华发展的合规、数据协同等挑战,并通过AI技术提升运营效率。活动还探讨了跨国企业如何借助智能化方案平衡全球战略与本土执行,推动业务持续增长。

  • 进博会“全勤生”再发力:三星首款Micro RGB电视推动显示行业迈向微米级时代

    2025年11月5日至10日,第八届中国国际进口博览会在上海举行。三星作为连续参展的“全勤生”,携115英寸Micro RGB产品亮相,首次将自研Micro RGB技术应用于超大尺寸屏幕,通过微米级RGB LED独立背光方案,在色彩准确度、对比度与沉浸感方面实现突破,重新定义超高端电视技术标准。该产品融合AI芯片引擎,驱动音画协同升级,并搭载防眩光技术与超纤薄金属机身,结合杜比全景声等优化,打造高端影音体验,体现三星对显示技术趋势的深刻洞察与持续创新能力。

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

  • 百度搜索推出“百度猎户座”AI引擎,涵盖基座模型、搜索AI API、 MCP、垂类优势能力

    2025年11月13日,百度发布“百度猎户座”AI引擎,全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力,基于多智能体架构统一连接信息、工具、服务与模型,融合搜索技术优势与全网MCP生态资源。即日起对外开放,支持企业快速接入打造专属AI应用。同时,文心助手上线个性化记忆功能,视频生成推出“参考生成”玩法,AI短剧创作平台免费提供超30万部IP资源及全流程工具。

  • 排队5小时,互动3分钟,年轻人流行“调戏”景区NPC

    当被NPC“李世民”现场封为大唐郡主、骠骑大将军时,游客们大概就知道,这景区来对了。 最近,因为在全国各大景区还原李世民等经典角色,演员郑国霖翻红,成了名副其实的“打工皇帝”、景区NPC顶流。有媒体报道,不久前的十一假期,他七天内去了七个城市,最忙的一天只睡三四个小时。 NPC原指游戏中的非玩家角色 (Non-Player Character) ,但在近几年,一些景区会安排

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • PCEVA深度评测:忆联AE531 QLC SSD以高效稳定,从容应对多元应用场景挑战

    PCEVA对忆联首款QLC商用消费级SSD AE531进行深度评测。该产品在性能测试中全面超越同级,顺序读写达6817/5680MB/s,SLC缓存策略提供约110GB空间,60℃满载无降速。跨平台兼容性与低TCO设计满足企业降本增效需求,验证了QLC在商用场景下的稳定优势。

今日大家都在搜的词: