首页 > 热点 > 关键词  > DeepSeek-OCR最新资讯  > 正文

DeepSeek开源3B OCR模型:长文本识别达97%精度

2025-10-21 08:31 · 稿源:站长之家

站长之家(ChinaZ.com) 10月21日 消息:DeepSeek近日在GitHub平台开源其最新成果——DeepSeek-OCR模型,该模型通过创新的光学二维映射压缩技术,在长文本识别场景中实现97%的识别精度,为OCR领域树立新的技术标杆。

据技术文档披露,该模型采用双模块架构设计,由DeepEncoder视觉编码器与DeepSeek3B-MoE-A570M混合专家解码器构成。其中,DeepEncoder可在处理高分辨率图像时自动维持低激活状态,通过动态压缩生成最优数量的视觉特征令牌(visual tokens),较传统方法减少60%的计算冗余。

DeepSeek大语言模型算法是、深度求索AI人工智能

实验表明,当视觉令牌与文本令牌的比例控制在1:10时,模型识别准确率达97%;即便将压缩率提升至1:20,准确率仍保持60%以上,显著优于同类模型在极端压缩条件下的表现。

研究团队特别指出,这项突破性成果源于对"光学二维映射压缩"技术的深度探索。通过将图像特征转化为离散令牌序列,模型成功解决了长文本场景中视觉信息与语义输出的匹配难题。

该技术路径不仅为OCR系统的小型化提供可行方案,更对大语言模型的记忆管理机制研究具有重要启示——其动态压缩策略可类比为人工智能的"选择性遗忘"能力,为构建更高效的持续学习系统奠定基础。

项目地址:https://github.com/deepseek-ai/DeepSeek-OCR

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

举报

  • 相关推荐
  • 科研、产业场景全覆盖,天翼云息壤与DeepSeek-V3.2共解AI落地难题

    中国电信天翼云息壤平台正式接入全球顶尖开源大模型DeepSeek-V3.2,以“低成本+高智能”硬核优势推动AI技术普惠化。该模型推理能力与GPT-5持平,部分场景超越GPT-5 High版本,而推理成本仅为行业主流模型的1/3。天翼云通过算力、稳定性、安全三大核心支撑,为模型提供海量弹性算力与7×24小时高可用保障。DeepSeek-V3.2在文献分析、代码生成、跨学科推理等场景展现强劲实用价值,结合天翼云的国家级算力基础,正打造“国家级算力+世界级模型”的行业黄金组合,加速AI技术规模化落地。

  • DeepSeek创始人梁文锋入选《自然》年度十大科学人物

    《自然》杂志发布2025年度十大科学人物榜单,中国在人工智能与深海科学领域表现突出。深度求索创始人梁文锋及中科院深海科学家杜梦然入选。榜单特别指出,DeepSeek推出的R1大模型以开放权重形式发布,推动行业向更开放共享方向发展。该模型在多项能力上媲美顶尖模型,训练成本却远低于竞争对手。今年9月,梁文锋团队相关研究登上《自然》封面,回应了外界质疑,为行业树立了新标杆。

  • “2025年度字词”即将出炉:DeepSeek、草台班子入选

    汉语盘点2025”活动日前发布年度字词”的候选前五位字词。 汉语盘点2025”包括国内字、国内词、国际字、国际词四大板块,其中DeepSeek”和草台班子”分别入选国内词和国际词的候选名单。 前五位年度国内候选字:韧”创”融”智”通” 前五位年度国内候选词:十五五”深度求索(DeepSeek)”九三阅兵”苏超”具身智能”

  • 首发秒售罄,二级市场溢价:前行者X洛天依联名事件解码“心价比”时代的品牌升维

    前行者与虚拟歌姬洛天依的联名键盘将于12月12日晚预售,全球限量712套对应洛天依生日。产品融合科技与文化,以情感价值为核心,预售前已在二级市场形成活跃交易。这标志着品牌从技术竞争转向“科技+文化+情感”战略,为消费电子行业提供了从“性价比”到“心价比”的转型启示。

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • DeepSeek同时发布两个正式版模型:DeepSeek-V3.2系列发布

    今日,DeepSeek正式推出V3.2系列模型,包含标准版DeepSeek-V3.2与长思考增强版DeepSeek-V3.2-Speciale。此次更新不仅在推理性能上实现重大突破,更通过创新性技术架构重新定义了开源模型的能力边界。 目前,官方网页端、移动应用及API服务已全面升级至V3.2标准版,而Speciale版本则以临时API形式开放供学术研究使用。 DeepSeek-V3.2在平衡推理效率与输出质量方面

  • 2025,中国首份AI CRM的“标准”:销售易凭什么执笔?

    2025年9月,中国信通院与销售易联合发布《智能驱动增长:人工智能客户关系管理系统研究报告》,并启动相关标准编制。这标志着中国AI+CRM领域标准制定权从“政府授予”转向“市场博弈”。销售易凭借其AI原生技术路线、服务5000+大型企业的实践经验,以及作为唯一深度参与标准核心起草的CRM厂商身份,成为产业规则制定者。这不仅提升了其品牌高度和生态位势,更意味着�

  • 苹果阔折叠iPhone明年登场:内屏无开孔、无折痕!重回指纹识别

    从多方权威爆料基本可以确定,苹果将会在明年9月发布首款可折叠iPhone,与iPhone 18 Pro系列同台登场。 博主数码闲聊站”透露工程机最新进展,该机将采用阔折叠”方案,也就是类似华为Pura X的比例。

  • 新华网×赛迪网双重肯定:销售易AI CRM入选“AI中国”生态范式集

    销售易AI+CRM产品NeoAgent凭借卓越的AI技术应用与业务实践,入选《“AI中国”生态范式集(2025)》和《“AI中国”生态图谱(2025)》,获得“AI中国”双项核心认定。这标志着中国CRM行业在响应国家人工智能发展战略、以智能化工具赋能企业形成新质生产力方面迈出坚实一步。销售易已连续九年入选Gartner SFA魔力象限,并获得高度评价。未来,销售易将持续深化与腾讯的战略协同,基于国产化技术底座,将“智能”与“连接”能力注入企业运营的每一个环节,推动中国CRM产业高质量发展,为壮大数字经济贡献力量。

  • 豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

    今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。 据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。 同时支持多模态视觉识别,不仅听懂字”还能看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

今日大家都在搜的词: