首页 > AI头条  > 正文

百度文心发布PaddleOCR-VL-1.6:准确率破96.33%刷新文档解析SOTA

2026-06-02 17:48 · 来源: AIbase基地

百度正式发布文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6权威评测中以96.33%的准确率超越Gemini-3-Pro、GPT-5.2及GLM-OCR等国内外主流大模型,刷新业界SOTA,综合性能荣登全球第一。这一发布标志着多模态大模型在复杂文档理解与真实场景解析能力上取得了重要突破。

作为文心大模型多模态能力的核心组成部分,PaddleOCR基于文心大模型训练,目前支持超100种语言识别,用户覆盖全球170多个国家和地区。本次升级的PaddleOCR-VL-1.6在保持0.9B轻量化架构的前提下,通过模型驱动的数据构建机制与渐进式训练优化,显著提升了在表格、古籍、生僻字、印章及图表识别等复杂场景下的核心识别能力。

在面向真实复杂场景的Real5-OmniDocBench评测中,该模型凭借93.19%的总指标同样保持领先,攻克了扫描件、弯折、屏幕拍照、光照变化及倾斜文档等业界公认的解析痛点。

由于延续了前代架构,企业和开发者可实现无需额外适配的平滑迁移。目前,PaddleOCR在GitHub上的Star数已突破79.2K,超越谷歌Tesseract OCR,成为全球最受迎的开源OCR项目。新模型现已上线官网并开源代码与权重。在当前大模型向多模态深度演进的趋势下,PaddleOCR-VL-1.6不仅为文档数字化提供了更高效的产业级解决方案,也将进一步加速AI在复杂多模态场景下的落地进程。

  • 相关推荐
  • 腾讯文档「人机双写」行业首发,原生接入WorkBuddy打造新一代AI办公工作台

    腾讯文档在2026腾讯云AI产业应用大会上全面升级,发布行业首创的“人机双写”能力,从单人编辑工具进化为人与AI同屏协作的新一代内容平台。AI作为“数字同事”,能与用户实时接力创作,如根据提纲填充细节、生成PPT或可视化图表。该能力依托与WorkBuddy的技术融合,采用统一Agent内核,实现对Word、PPT等场景的深度操作。升级后,腾讯文档既可独立使用,也是“效率智能体套件”的核心组件,并通过API和Skill开放AI能力,赋能千行百业。

  • 问界M6的华为巨鲸电池有多牛:自带黑匣子 寿命能OTA延长

    问界汽车今日在答网友问”中提到,M6搭载的华为巨鲸电池有着不少亮眼设计,解决了很多新能源车主的用车顾虑。 这款电池配备了类似飞机黑匣子的记录装置,全程守护电池使用安全。这套装置可以全天候运转,就算车辆遇到极端情况也能24小时监测并上报状态。 日常行驶里,它还会配合云端AI系统24小时监测电池状态,提前发现潜在隐患。 电池寿命方面也有巧妙设计。它

  • 腾讯云面向Agent升级数据平台:DataBuddy、WeData与AI原生数据底座亮相

    腾讯云宣布面向Agent升级全栈数据平台,通过DataBuddy、WeData和AI原生数据底座三层架构,构建人机协同的智能入口、统一控制面和数据底座。DataBuddy作为生产级数据智能体,可自动完成数据建模、ETL开发等复杂任务,将重复开发工作量降低80%,研发效率提升5-10倍。WeData通过统一语义层将自然语言转SQL准确率提升至90%以上。AI原生数据底座从存储、计算、系统到数据分析四层面智能化升级,支持多模态数据处理和Agent协同工作。同时,面向政务、金融等行业升级TBDS私有化平台,加速Agent规模化落地。

  • 小米手环9喜迎OTA更新:功耗、睡眠大升级 支持更多车钥匙

    小米手环9推送3.1.26版OTA更新,主要优化了续航功耗、睡眠监测和车钥匙功能。续航更省电,日常使用更持久;睡眠监测算法升级,可同步手机状态提升数据准确性;新增垂腕自动隐藏消息详情保护隐私;车钥匙支持更多车型,抬手即可解锁。此外还同步手机勿扰模式、优化通知管理、支持删除预置表盘、扩大公交卡范围。目前先推送给500名内测用户,后续将全量推送。

  • 华为鸿蒙7首次亮相 鸿蒙7开发者Beta正式发布

    在6月12日开幕的华为开发者大会2026上,HarmonyOS7正式面向开发者开启Beta测试。此次系统迭代的核心,是将底层逻辑从过往的“App亲和”推向“Agent亲和”,这标志着鸿蒙操作系统开始向智能体架构全面演进。

  • 外贸CRM怎么选?5大核心选型维度深度解析

    外贸企业选CRM常踩五大坑:选错公域CRM导致客户数据泄露、竞争加剧;通用CRM功能不匹配外贸业务(如多币种报价、信用证跟踪);盲目追求大而全,实际功能闲置;系统封闭无法对接ERP、财务等;业务员因界面复杂、服务差、设计不实战而抵触。建议选纯私域CRM,确保数据100%企业私有,按需付费模块化,开放API对接,并适配外贸实战流程。富通天下私域CRM集成独立站、谷歌、海关数据等渠道,打通从客户开发到订单执行全流程,助企业掌控核心客户资产。

  • 美团Tabbit的百日狂飙

    过去,医疗卫生条件差,新生儿很容易在百日内夭折,过了百日后夭折风险便会显著下降,民间逐渐形成了“百日宴”的传统。 人如此,产品亦然。 3月2日,美团旗下光年之外团队推出的AI Native浏览Tabbit开启公测,经过100天、12次版本迭代后,于6月9日,踩在高考周期内,交出了1.0的答卷。 一位内部人士此前告诉光子星球,团队有很多想法,但不确定哪些是用户真正愿意买�

  • 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计

    腾讯云在2026 AI产业应用大会上发布CodeBuddy+ Security,结合自研AI深度审计引擎与静态分析工具Xcheck,解决AI时代漏洞激增及传统代码审计瓶颈。该产品采用“双引擎协同+工程化约束”策略,通过AI引擎专攻深层逻辑漏洞,Xcheck处理已知特征漏洞,并引入独立二次校验和PoC验证,确保漏洞真实可修复。目前已在NVIDIA、Google等主流项目中发现并协助修复多个有效漏洞,并逐步接入腾讯内部发布流水线,面向企业开放试用。

  • Computex 2026:NVIDIA 携手微软发布 RTX Spark,在个人 AI 时代重塑 Windows PC;DLSS 4.5 光线重建发布,现已有超过 1,000 款 RTX 游戏和应用

    在Computex 2026上,NVIDIA发布全新超级芯片RTX Spark,专为个人AI智能体时代重塑Windows PC。该芯片提供1 Petaflop AI性能、领先能效及最高128GB统一内存。NVIDIA与微软合作打造原生Windows体验,包括安全基元和OpenShell。华硕、戴尔、惠普、联想、微软Surface及微星将在今年秋季推出搭载RTX Spark的轻薄笔记本和紧凑型台式机。同时,NVIDIA还发布了DLSS 4.5光线重建技术,并宣布RTX游戏和应用已超过1000款。

  • 首发2969元!小米发布米家即热管线机制冰版:彻底解放 全自动制冰

    小米正式推出了米家即热管线机制冰版,官方定价3299元,券后到手价2969.1元起。 一台顶五台,单机实现制冰、即热、制冷功能,可替代饮水机、制冰机、电热水壶等多款设备,适配家庭、办公等多类场景。 采用双供水设计,安装灵活不受限:既可以直接连接净水器取水,也能搭配2.6L外置纯水箱手动加水,无需预留专用进水口,座装方式可适配客厅、厨房、办公室等不同空�

今日大家都在搜的词: