首页 > 业界 > 关键词  > DeepSeek-OCR最新资讯  > 正文

全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

2025-10-21 16:11 · 稿源: 数字生命卡兹克

声明:本文来自于微信公众号 数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。

AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。

每天就是跑分又多了几个点。

直到昨天,DeepSeek久违的发了一个新模型。

DeepSeek-OCR

这玩意,是真的有点酷。

图片

首先,不要被这个名字骗了。

虽然说它名字上有个OCR,但是你说它真的就只是个OCR模型吗。

我想说,是,也不是。。。

说它是,很简单,就是因为这玩意,干的确实也是传统OCR的活。

传统的OCR任务其实特别纯粹,就是把那些图片上字啥的啊,变成你电脑里可以编辑可以复制粘贴数字文本。

以前没有OCR的时候,你想想,你看到手上的书上有些字特别好,你想录到电脑里,你会咋办?答案就只有一个,一个字一个字的敲上去。

敲几句话还行,让你敲个合同或者一本三体你试试看,是个人都绝逼要疯。

后来OCR来了,就特别方便了,直接拍个照片,就能把里面的文字全部提取出来,很简单。

所以DeepSeek-OCR确实也有OCR的功能,也能干OCR的活,而且还挺强。

图片

比如这是一张典型的金融研究报告。,里面有文字,有图表,有各种复杂的排版。

你让一个传统的OCR软件去看这张图,它可能会非常精准地,把里面所有的文字,都抠出来,变成一个TXT文档。

然后就没有然后了。

但是DeepSeek-OCR,它看完这张图,会直接,生成一个Markdown文档。

在这个文档里,文字是文字,标题是标题,最关键的是,那些图表,被它用代码,也重新画了一遍,变成了一个可以被编辑被引用的表格。

这个很牛逼了。

但是吧,这玩意又不只是我们传统意义上理解的OCR。

他还有一个很重要的功能,就是,压缩。

可能会有点难以理解和抽象,我尽可能的用通俗易懂的话来讲明白。

在说压缩之前,我们得先搞明白,现在所有大语言模型,从GPT-3.5到我们现在的各种模型,都面临着一个共同的几乎无解的噩梦,就是长文本处理。

你别看它们现在能写一堆乱七八糟的能当朋友跟你聊天还能用嘴画图,但你只要丢给它一篇稍微长点的内容,比如一本几十万字的书,让它去理解,去总结,基本上都要炸。

因为AI理解文字的方式,跟我们不一样。

我们看书,是一目十行。

AI读文字,它需要把每个字,每个词,都转换成Token。你可以把它简单的理解成一个一个的“字节”,是数据里面的那个字节,不是字节跳动的字节。

现在主流AI架构的缺陷是,它在读每一个新词的时候,为了理解上下文,它需要把这个新词和前面所有出现过的词,都建立一次联系。

所以处理这些Token的计算量,是随着文本长度的平方增加的。

比如我举一个Party的例子,现在这个Party上有10个人,每个人都跟其他人贴贴一下,那大概需要45次贴贴,还行对吧。

但如果来了100个人,每个人都要跟其他人贴贴,就需要将近5000次贴贴,这基本就属于废了。

这就是技术上常说的计算复杂度是N的平方。

这个成本,是指数级增长的,谁都扛不住。

所以,长久以来,整个AI界都在死磕一个问题,怎么让AI,能又快又便宜的搞定上下文的问题?

大家想了很多办法,什么滑动窗口、稀疏注意力,各种各样的算法优化。但这些,都像是给一辆漏油的破车,换更好的轮胎,贴更骚的膜。

但是它,解决不了发动机的根本问题啊。

然后DeepSeek这次,它根本没管你那个漏油的破逼车,而是,直接给你买了一辆,新能源。

它说:“我们为什么,非要让AI一个字一个字地读呢?我们能不能让它,像我们人一样,看?”

就是我不再把一本300页的书,转换成几十万个Token的文本文件,喂给AI。

而是,我直接把这300页书,拍成一张张照片,变成一个图像文件,然后,让AI去看这张图。

你可能觉得,这不是脱裤子放屁吗?照片不也是由像素组成的吗?信息量不是更大了吗?

对,但你忽略了最关键的一点:

图像,是二维的,而文字,是一维的。

一维的文字,就像一根无限长的薯条,你想吃它,智能从头吃到尾,一个字节都不能少。

而二维的图像,就像一张大饼,你一眼扫过去,整个饼的全貌,尽收眼底。

DeepSeek-OCR,干的就是这事,把所有的文字,全部压缩成图像。

这个过程,在他们的论文里,叫“上下文光学压缩”(Contexts Optical Compression)。

我给你举一个真正的应用场景案例,你就全明白了:

比如假设你正在跟一个AI助手聊天,你俩已经聊了三天三夜,聊了1000轮,可能占几十万甚至几百万的Token。

对于以前的大模型来说,当你问:“哎,我三天前跟你说的第一件事是啥?”,大模型就必须把这1000轮的全部聊天记录都装进它的记忆区也就是上下文窗口里,才能去查找。

这会撑爆它的内存和算力,所以现在的AI,很多的聊着聊着你就感觉它失忆,因为有的,真的只能记住最近的几十轮对话。

而DeepSeek-OCR的解决方案呢,是这样的。

AI助手只把最近10轮的聊天记录,用文本的形式记在脑子里。

但是,它把那更远一点的990轮的文本聊天记录,自动渲染成一张或着几张长长的图片,就像你给聊天记录截了个屏。

然后,它立刻调用内部的DeepEncoder编码器,把这张包含海量文字的截图,压缩成大概只有原来10分之1的视觉Token,然后一起扔到上下文中,记到脑子里。

当真正要用的时候,比如你还是问那个问题,“我三天前说的第一件事是啥?”

它现在的上下文里装的是10轮聊天记录的文本token+990轮聊天记录的视觉token

然后,它的解码器,DeepSeek-3B,一个激活参数为570M的MOE模型,已经通过 OCR 任务,学会了一看到这种视觉token,就能把解码还原成原文的能力。

于是,他看了一眼那一圈视觉Token,找到了三天前的第一句话,然后回答了你。

这,就是DeepSeek-OCR的整个架构。

图片

所以啊,别被名字骗了,这真的不止是个OCR啊。。。

这是纯粹的关于上下文的新范式。。。

所以虽然跟百度的那个PalddeleOCR-VL一样名字也有OCR,但其实,两个,真的不是一个东西= =

DeepSeek-OCR,这,即是压缩。

论文里给出的数据是,在保持96.5%的识别准确率的前提下,压缩比可以达到惊人的10倍

图片

压缩比 = 原来的文本token总数 ÷ 压缩后视觉token总数。

而20倍的压缩比,还能保留60%的准确率,虽然这个准确率确实不咋地,但是,这也是给未来留下了非常值得优化的方向。

说实话,这个东西确实很新,真的很有意思,可能是我为数不多的最近看到的最好玩的模型论文。

一图胜千言,可能说的就是如此吧。

而且细细想来,其实这种压缩之法,也确实没啥毛病。

我们总觉得文字是信息传递的巅峰

但从整个人类历史和生物进化的角度看,视觉,才是我们一直处理信息的最重要的手段。

在文字诞生之前的几十万年里,我们的祖先就是靠看来生存的。

看天色,看猎物,看同伴的表情,看亲手刻下的壁画。

在纸张和印刷术普及之前,人类是怎么记录宏大叙事的?是壁画,是浮雕。

埃及金字塔里的象形文字,敦煌莫高窟里的经变画,它们本身就是一种压缩。古埃及人把复杂的祭祀、律法、历史,压缩在一幅幅画里,等待别人去解压。

从这个角度看,DeepSeek-OCR干的事,和当年的人类,其实也没什么两样。

但是当我觉得,最头皮发麻为之一振的话。

其实是论文的最后,他们写的一点点希望讨论的。

DeepSeek说,对于那些更古老的上下文,我们可以逐步缩小渲染出的图像,以进一步减少令牌消耗

这个假设的灵感,来自于一个非常自然且深刻的类比:

人类的记忆会随着时间的推移而衰退,人类的视觉感知会随着空间距离的拉远而退化。

图片

这种现象,它们都表现出了相似的、渐进式的信息丢失模式。

他们可以用“上下文光学压缩”的方法,实现了一种记忆衰减形式。

比如图表里,最左是 Text token,也就是不压缩的纯文本,信息保真;往右是把文字渲成图再编码成视觉 token 的不同模式,Gundam 比较豪华、细节多、花销大,Large 再次之,Base、Small、Tiny 依次更省 token、也更模糊。

它几乎,完美地镜像了生物的遗忘曲线

在这个机制下,最近的信息保持着高保真度,而遥远的记忆则通过不断提高的压缩率,自然地褪色和淡忘。

这个机制,实在是太酷了。

很像是在探讨,一种“数字生命”的可能形态。

我们一直以来追求的AI,是什么样的?

是一个拥有无限记忆、绝对理性的“神”。

它不会遗忘,不会犯错,像一台完美的机器。

但我们自己是这样的吗?

不是。

遗忘,恰恰是人类智慧最重要的组成部分。

我们之所以能够创新,能够抓住重点,能够在复杂的世界里做出决断,正是因为我们的大脑懂得,放下。

我们会忘记那些不重要的细节,我们会模糊那些久远的伤痛,我们会把宝贵的认知资源,留给当下最重要的事情。

遗忘,还有错误,真的不是bug,是我们这个物种能够延续至今的核心算法之一。

就像西部世界里的那句经典台词。

在福特的理论中,进化形成了这个星球上有情感和知觉的生命体,“用的唯一工具,就是错误。”

遗忘,也是那个“错误”。

对DeepSeek-OCR感兴趣的,可以去他们的项目网址看一看,体验一下。

https://github.com/deepseek-ai/DeepSeek-OCR

但是,我也非常强烈的建议,大家也可以,去读一读这篇论文的原文。

不需要看那些很技术的原理和数学,只要看方法,还有范式,其实就能学到很多东西。

我把论文原文也放在公众号后台了,你对着后台私信“OCR”,也会自动的发给你。

图片

感谢DeepSeek。

举报

  • 相关推荐
  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 华为FreeClip 2耳夹耳机正式开售:售价1299元 搭载NPU AI处理器

    华为FreeClip 2耳夹耳机10月20日开售,售价1299元。预售1小时销量破8万台,市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器,算力提升10倍;配备超澎湃双引擎单元,响度与低频动力均翻倍。支持L2HC高清音频编码,音质清晰。新增鸿蒙AI耳边助手,支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构,单耳重5.1克,佩戴舒适且具备IP57防护。续航方面单次使用9小时,配合充电仓总续航达38小时,充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 见所未见 百微新生 索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

    索尼将于2025年10月发布首款1G大师系列微距镜头FE 100mm F2.8 Macro GM OSS。新品实现1.4倍放大率,搭配增距镜可达2.8倍,配备4个XD线性马达使自动对焦性能提升1.9倍。采用11片圆形光圈与第二代纳米AR镀膜技术,搭载专为微距设计的光学防抖系统。镜头重646克,具备防尘防潮设计,建议零售价9,299元。

  • 2025 VDC游戏技术分会召开,多维技术创新定义游戏新体验

    2025年vivo开发者大会于10月10日在深圳召开,游戏技术分会以“极致·共生”为主题,展示了vivo在游戏领域的最新技术成果与合作案例。大会聚焦移动游戏技术爆发新阶段,强调通过软硬件协同实现性能、触控、图形等关键技术突破,为玩家带来多维一体的极致体验。vivo推出自研电竞芯片Q3及图形SDK,支持超分、超帧与光线追踪技术,并与《王者荣耀》《无限暖暖》等游戏深度合作,优化帧率、触控响应及功耗表现。未来vivo将持续夯实技术底座,通过VGS平台携手开发者共建游戏生态,推动移动游戏产业体验升级。

  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 寒武纪深耕智能芯片技术与软件生态 助力大模型应用落地

    良好的软件环境能降低AI应用开发门槛,增强用户粘性,对AI芯片发展至关重要。寒武纪专注AI芯片研发,掌握处理器架构、SoC设计等硬件技术及编程框架、编译器、驱动等软件技术。通过芯片、硬件板卡、基础软件三大团队协同,为产品提供全链条技术支持,并构建开发者生态。未来将通过开放生态推动云计算、金融、医疗等行业的智能化升级,以市场为导向保持技术领先。

  • 打破应用孤岛——个推AI SDK全面接入MCP全场景能力

    大模型技术正推动产业从移动互联网向智能互联网跃迁,用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK,集成自然语言交互、上下文理解、行业知识库等能力,帮助APP一键集成AI功能,降低开发成本。通过智能搜索、跨应用服务协同(MCP)等,实现从"字面匹配"到"意图识别"的升级,为用户提供精准服务。该方案已接入AI协同应用创新平台,支持多行业快速构建专业可信的智能应用生态。

今日大家都在搜的词: