首页 > AI头条  > 正文

IBM与Hugging Face联手放大招!开源“文档解密神器”SmolDocling,复杂文档一键变结构化数据!

2025-03-19 17:41 · 来源: AIbase基地

话说在计算机科学领域,将那些结构复杂的文档变成规整的数据,一直是个让人头疼的“老大难”问题。以前的“土办法”,要么是各种模型“组团出道”,搞出一套复杂的流程,要么就得祭出“巨无霸”级别的多模态模型,虽然看起来很厉害,但动不动就“幻觉”,还特别“烧钱”。

QQ_1742377209054.png

不过最近由IBM和Hugging Face联手推出的SmolDocling,只有256M参数的开源视觉-语言模型(VLM),目标非常明确,就是要端到端地解决多模态文档转换的任务

SmolDocling的独门秘籍

SmolDocling最让人称道的地方,就是它的“小巧玲珑”和“一身绝技”。与那些动辄几十亿、几百亿参数的“大模型”不同,SmolDocling仅仅256兆的体量,简直是模型界的“轻骑兵”,显著降低了计算复杂性和资源需求。更厉害的是,它能够通过单个模型处理整个页面,这一下就把传统方法中复杂的处理流程给简化了。

当然,“个子小”并不代表实力弱。SmolDocling还拥有一项“独门武器”——DocTags,这是一种通用的标记格式,能够以高度紧凑和清晰的方式精确捕捉页面元素、它们的结构和空间上下文。你可以把它想象成给文档里的每个元素都贴上了清晰的“标签”,让机器能够准确理解文档的内在逻辑。

SmolDocling的架构基于Hugging Face的SmolVLM-256M,通过优化的tokenization和激进的视觉特征压缩方法,实现了计算复杂性的显著降低。它的核心优势在于创新的DocTags格式,能够清晰地分离文档布局、文本内容以及表格、公式、代码片段和图表等视觉信息。为了更高效地训练,SmolDocling还采用了课程学习的方法,先“冻结”视觉编码器,然后逐步使用更丰富的数据集进行微调,以增强不同文档元素之间的视觉语义对齐。更令人惊喜的是,得益于其高效性,SmolDocling处理整个文档页面的速度非常快,在消费级GPU上平均每页仅需0.35秒,且仅消耗不到500MB的显存

QQ_1742377221035.png

“小模型也能打败“巨无霸”

事实胜于雄辩,SmolDocling在性能测试中用实力证明了自己并非“花架子”。在涉及各种文档转换任务的综合基准测试中,SmolDocling的表现显著优于许多体量更大的竞争模型。例如,在全页文档OCR任务中,与拥有70亿参数的Qwen2.5VL和3.5亿参数的Nougat相比,SmolDocling取得了明显更高的准确率,其编辑距离(0.48)更低,F1分数(0.80)更高

公式转录方面,SmolDocling也达到了0.95的F1分数,与最先进的模型如GOT不相上下。更令人称赞的是,SmolDocling还在代码片段识别方面树立了新的标杆,精确率和召回率分别高达0.94和0.91。这简直是“小个子,大力气”,在各个关键领域都展现出了惊人的实力!

“十八般武艺”:复杂文档也能轻松搞定

SmolDocling与其他文档OCR解决方案的不同之处在于,它能够处理文档中的各种复杂元素,包括代码、图表、公式和各种不同的布局。它的能力不仅限于常见的科学论文,还能可靠地处理专利、表格和商业文档

通过DocTags提供全面的结构化元数据,SmolDocling消除了HTML或Markdown等格式固有的歧义,从而提高了文档转换的下游可用性。其紧凑的体积还使其能够以极低的资源需求进行大规模的批量处理,为大规模部署提供了经济高效的解决方案。这意味着,以后企业在处理海量复杂文档时,再也不用为高昂的计算成本和复杂的流程而烦恼了。

总而言之,SmolDocling的发布代表了文档转换技术的重大突破。它有力地证明了,紧凑型模型不仅能够与大型基础模型竞争,而且在关键任务中还能显著超越它们

研究人员成功地展示了,通过有针对性的训练、创新的数据增强和像DocTags这样的新型标记格式,可以克服传统上与模型大小和复杂性相关的局限性。SmolDocling的开源不仅为OCR技术树立了新的效率和多功能性标准,还通过开放的数据集和高效紧凑的模型架构,为社区提供了一份宝贵的资源。

  • 相关推荐
  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • 声启未来新章 BANG & OLUFSEN 铂傲 推出全新Beo grace耳机

    Bang & Olufsen推出全新无线耳机Beo Grace,融合纤薄铝制机身与卓越音质,体现品牌对声学创新与永恒设计的追求。耳机灵感源自高级珠宝,采用标志性抛光铝材打造,支持杜比全景声与自适应主动降噪技术,降噪效果较前代提升四倍。配备12毫米钛金属驱动单元,续航达4.5小时(搭配充电盒可达17小时),具备IP57防水防尘。通过NearTap™手势操控与定制电池管理系统,兼顾便捷使用与长效耐用,开启可佩戴声学新纪元。

  • 英特尔联动「扣子 AI 工坊」启动高校计划——让校园创意一键开挂

    英特尔与新一代AI平台扣子联合发起“英特尔×扣子AI工坊高校计划”,旨在通过校企合作推动AI技术在教育领域的深度融合。该计划以校园场景化实践为核心,通过线下工作坊、创新挑战赛等形式,将前沿AI工具引入高校,帮助学生掌握AI应用能力。活动覆盖全国数百所高校,结合酷睿Ultra处理器的硬件优势,让学生直观体验AI在创作、学习等场景的高效赋能。未来双方计划深化课程共建与就业对接,构建AI教育新生态,助力青年适应智能时代发展需求。

  • CCF科技成果奖揭晓:国内开源社区斩获最高荣誉

    近日,中国计算机学会公布2025年度“CCF科技成果奖”评选结果,共有38个项目获奖。其中,“开放麒麟(openKylin)操作系统及开源社区”项目凭借在核心技术创新与产业落地中的突出贡献,荣获科技进步特等奖。该项目面向桌面应用场景,在RISC-V架构适配、移动应用兼容、智能引擎框架等方面取得突破,已在金融、通信、能源等行业规模化应用。目前,openKylin社区已吸引1300多家生态伙伴加入,构建了覆盖硬件、软件、AI等领域的全栈生态。作为全球领先的开源桌面系统根社区,该项目通过技术输出与国际协作,持续提升我国在开源领域的影响力,为全球开源生态注入中国力量。

  • 桦加沙台风天,居家办公如何访问办公系统?免费内网穿透一键远程访问

    台风“桦加沙”来袭导致企业员工被迫居家办公,若ERP、OA等核心系统仅限内网访问,将引发审批中断、业务停滞等问题。贝锐花生壳内网穿透提供免费、快速、安全的远程访问方案,无需公网IP或专线,几分钟即可部署稳定域名入口,支持HTTPS加密及灵活访问控制。该方案不仅可应对极端天气下的临时需求,更能长期保障业务连续性与数据安全,是企业远程办公的可靠选择。

  • 一加Ace 6参数出炉:骁龙8 Elite+165Hz高刷屏 同档唯一

    一加Ace+6曝光:搭载1.5K 165Hz超高频屏幕、骁龙8+ Elite处理器,提供四种存储组合及三款配色。内置7800mAh电池,支持120W闪充,重约214g。独家配备全新一代游戏内核,首次实现CPU、GPU与NPU协同调度,通过三大技术优化,实现165帧全栈部署,芯片调度效率提升29.8%,功耗降低11.7%。预计10月与一加15同台发布。

  • 微信新功能上线:长按图片“搜一搜” 检索购物转表一键达

    微信近日推出创新功能“搜一搜”,用户长按图片即可快速检索相关信息、直达购物或转换表格。该功能在信息检索方面表现突出,用户无需打开浏览器即可获取图片相关的历史、科学等专业内容。同时支持购物直达,系统自动关联商品购买渠道,实现“看图购物”。此外,还能一键将图片中的表格转为可编辑格式,提升工作效率。适用于iOS 8.0.59及以上、安卓8.0.58及以上版本,网友称赞其便捷高效。

  • 云天励飞“算力积木”联手OISA,突破万亿级MoE大模型推理集群的Scale up瓶颈

    云天励飞近日加入OISA生态,携手产业伙伴共建国产AI芯片互联体系,为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系,旨在打造全向、对等、智能的互联新范式,解决智算集群内存互访难题,为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累,将依托“算力积木”架构的模块化优势,在大规模推理集群中实现高效互联,助力突破万级MoE大模型推理瓶颈,推动国产算力生态发展。

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

今日大家都在搜的词: