首页 > 热点 > 关键词  > 正文

百度推出通用图像关键信息抽取工具PP-ChatOCR 基于文心大模型打造

2023-08-11 08:30 · 稿源:站长之家

站长之家(ChinaZ.com) 8月11日 消息:近日,百度飞桨团队宣布推出基于文心大模型的通用图像关键信息抽取工具——PP-ChatOCR。它结合了 OCR 文字识别和大模型技术,可以在多种场景下提取图像中的关键信息。

PP-ChatOCR 的核心思想是利用大模型的泛化能力和规则化处理,将 OCR 识别结果传递给文心大模型进行信息提取。PP-ChatOCR 的技术框架包括 OCR 推理、场景判别、Prompt 构造和后处理等步骤。

百度表示,使用 PP-ChatOCR 可以快速搭建通用的图像关键信息抽取系统,降低开发成本。对于个性化的需求,可以针对业务场景进行优化,包括微调 OCR 模型和调整大模型输出。PP-ChatOCR 已经在多个场景中取得了良好的精度和稳定性。

微信截图_20230811082148.png

据悉,PP-ChatOCR 目前正式上线飞桨 AI 套件 PaddleX,开发者可以在 PaddleX 中对 PP-OCRv4做训练微调。同时 PaddleX 还支持 PP-ChatOCR 的高性能部署。

PaddleX 支持10+任务能力,包括图像分类、目标检测、图像分割、3D、OCR 和时序预测等;内置36种飞桨生态特色模型,包括 PP-ChatOCR、PP-OCRv4、RP-DETR、PP-YOLOE、PP-ShiTu、PP-LiteSeg、PP-TS 等。

AI Studio 应用中心体验 PP-ChatOCR:

https://aistudio.baidu.com/aistudio/projectdetail/6488689

飞桨 AI 套件 PaddleX 中的 PP-ChatOCR:

https://aistudio.baidu.com/aistudio/modelsdetail?modelId=332

PaddleOCR GitHub:

https://github.com/PaddlePaddle/PaddleOCR

举报

  • 相关推荐
  • 百度智能云发布零部署服务DuClaw:无需自行配置大模型

    百度智能云推出了一项名为DuClaw的零部署服务,将此前已大幅简化的一键部署”模式进一步升级为零部署”。 用户无需自行选择OpenClaw镜像部署云端服务器,也无需配置大模型推理服务的API Key,真正做到了零门槛养虾”。 目前,用户已可通过网页端直接使用该服务,后续还将陆续支持企业微信、钉钉、飞书等主流通讯应用,让AI助理随时随地触手可及。 据介绍,通过DuClaw,

  • 周鸿祎官宣将推出360安全龙虾:一键部署!不删数据、不泄露信息

    近期养龙虾(OpenClaw)非常火爆,很多个人用户、企业用户都在尝试,可以作为生产力帮手,自动调动多软件、信息。 需要注意的是,360集团创始人周鸿祎接受采访时表示,这是了不起的创新,但也有使用门槛过高、结果随机性强、安全风险突出等明显短板。 他说:龙虾更像个实习生,需要将其视为数字员工、数字助手,耐心培养。 他透露,针对OpenClaw存在的安装门槛高、�

  • ​别再盲目做 AI 营销了!这款 GEO监控工具,撕开了大模型引用的“黑盒”

    本文探讨了生成式引擎优化(GEO)的重要性,并介绍了AIBase推出的GEOBase平台。文章指出,当前品牌营销的关注点已从传统SEO转向GEO,即如何让品牌在AI搜索结果中获得更高可见度。GEOBase平台通过曝光趋势、引用来源、情感得分等核心功能,帮助品牌监测在各大AI平台(如DeepSeek、豆包等)中的表现,并提供数据驱动的优化策略。文章以3C品牌为例,展示了如何利用该工具分析竞争格局、优化内容投放,从而提升品牌在AI语境下的影响力。最后,文章强调GEO是算法时代的精密计算,而GEOBase为品牌提供了关键的“体检报告”和作战地图。

  • “龙虾”狂热:ChatGPT们只是AI的后端,OpenClaw让AI真正有了前端

    Agent 这个词,AI 行业喊了至少两年。2024年起,每一场发布会都在谈 Agent,投资机构管它叫下一个万亿市场,创业公司一夜之间改了 slogan。但打开产品一看,还是一个对话框等你打字:你给指令,它给回答;你不提问,它就停在那儿。 概念跑得很快,产品形态没跟上。直到 OpenClaw 出来,这种错位才突然变得可见——不是因为它发明了什么新技术,而是它把那层一直缺失的交互前�

  • 谷歌Nano Banana 2图像模型正式发布:4K生图 速度更快 成本砍半

    今日,谷歌正式发布新一代图像生成模型Nano Banana 2,主打更快、更便宜、更易用的高质量图像生成能力。 据了解,Nano Banana 2将陆续接入Gemini、Google搜索、AI Studio、Flow、付费API以及Google Ads等平台,并逐步全面替代旧版模型。 官方介绍称,该模型基于Gemini 3.1 Flash Image构建,融合了Nano Banana Pro级别的图像生成质量、推理能力与世界知识,同时继承Flash系列模型的高速生成优势,

  • 小度全产品矩阵亮相 AWE,看大模型时代如何让 AI 真正走进千家万户

    3月12日,中国家电及消费电子博览会(AWE2026)将在上海开幕。作为行业领先的AI助手硬件品牌,小度科技将首次携全系产品矩阵亮相,展示其“场景+AI+硬件”战略的落地成果。从智能音箱、智能屏到AI眼镜、智能摄像头等硬件,以及AI酒店、AI养老等行业解决方案,小度将呈现一个完整的AI生态。这一切的背后,是2025年底升级的“超能小度”——基于大模型打造的多模态AI智能助手,让小度产品真正具备了“看见”世界、“思考”需求的能力。在AWE现场,观众将有机会亲身体验多模态AI如何重塑家庭看护、随身办公、智能交互等场景。小度正以实际行动回答:大模型时代,AI应如何走进千家万户。

  • AI日报:OpenAI测试ChatGPT写作模板功能;番茄、拼多多密测AI互动剧;Canvas 正式全美公测

    本期AI日报涵盖多项AI领域动态:OpenAI正测试ChatGPT写作模板功能,支持用户上传个人文档以生成匹配其风格的模板;Google推出Canvas功能,将搜索工具转型为全能创作平台,支持文档深度加工与长文本处理;字节跳动与拼多多开启AI互动剧测试,标志互联网内容生产向“可计算的树状叙事”转型;华为全新AI眼镜曝光,支持拍摄与同声传译,预计4月与Pura90同步发布;阿里确认通义千问负责人林俊旸离职,CEO吴泳铭牵头成立基础模型支持小组;宇树科技开源人形机器人架构OmniXreme,解决高动态动作难题;苹果发布M5系列芯片,AI性能大幅提升,新款MacBook Pro续航超24小时;Google NotebookLM推出“电影级视频概览”新功能,提供沉浸式定制视频以辅助学习。

  • 喝排骨汤会长胖?真相来了:关键是要控制好量

    最近,喝排骨汤会不会长胖成了不少人关心的话题。有说法称,排骨汤脂肪含量高,喝了容易发胖,这是真的吗? 据了解,排骨汤的热量和脂肪含量确实不容小觑。炖

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • 从「卖果⼦」到「种树」,百度春节免费看背后的⻆⾊进化

    ​2026年春节,漫剧赛道彻底迎来爆发期。 爆款频出,⼤⼚集体下场,独⽴App扎堆上线,AI从辅助⼯具变身⽣产引擎,漫剧赛道热得发烫。 但据「克劳锐」了解,当下漫剧⾏业的增⻓速度,远超产业链的成熟度。 上游,海量IP亟待开发,⾏业标准尚未锚定;中游,制作质量参差不⻬,爆款难复制;下游,海量CP⽅涌⼊,却难以找到稳定的变现路径。 ⾏业在狂奔,但规则、标准、

今日大家都在搜的词: