Andrej Karpathy评DeepSeek-OCR论文：图像输入可能成为大语言模型新方向

2025-10-21 14:18 · 来源： AIbase基地

特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在推特上评论了开源的DeepSeek-OCR论文，提出了一个颇具启发性的观点:相比传统文本输入，图像作为大语言模型（LLM）的输入形式可能更加高效。这一观点在AI研究社区引发了关于模型输入方式未来演进方向的讨论。

Karpathy认为，当前广泛使用的文本token输入方式可能既浪费又低效，未来研究或许应该转向图像输入。他从几个维度阐述了图像输入相比文本输入的潜在优势。

首先是信息压缩率的提升。将文本渲染成图像后，可以用更少的视觉token传递更多信息。这是因为一个图像patch可以包含多个字符的信息，而在传统文本tokenization中，每个字符或子词都需要单独的token。在处理大规模上下文时，这种压缩可能显著提升模型效率，降低计算成本。

其次是信息表达的丰富性。图像输入天然支持加粗、颜色、字体大小、布局等视觉元素，这些格式信息在传统纯文本输入中要么丢失，要么需要通过额外的标记语言（如Markdown）来表示，后者又会增加token消耗。直接使用图像可以让模型更自然地理解文档的视觉结构和强调重点。

第三是注意力机制的优化空间。图像输入可以使用双向注意力机制，而传统的文本生成任务通常采用自回归的因果注意力。双向注意力能够让模型同时关注上下文的所有位置，通常能提供更强的理解能力。这种处理方式避免了自回归文本处理的一些固有限制。

Karpathy特别批评了tokenizer（分词器）的复杂性。他认为tokenizer是一个非端到端的历史遗留模块，引入了许多不必要的复杂性。例如，视觉上相同的字符可能因为来自不同Unicode编码而被映射到不同的token，导致模型对看似相同的输入产生不同的理解。去掉tokenizer直接处理图像，将使整个系统更加简洁统一。

从技术实现角度看，Karpathy的观点建立在视觉编码器已经相当成熟的基础上。Vision Transformer等架构已经能够高效处理图像输入，而DeepSeek-OCR等模型证明了视觉到文本的转换可以达到很高的准确率。将这种能力推广到所有文本处理任务，在技术上具有可行性。

不过Karpathy也指出了一个不对称性:虽然用户输入可以是图像，但模型输出仍需要保持为文本形式，因为生成逼真的图像仍然是一个未完全解决的问题。这意味着即使采用图像输入，模型架构仍需要支持文本生成，不能完全摒弃文本处理能力。

这一观点引发的讨论涉及多个层面。从效率角度看，如果图像输入确实能提高信息密度，在处理长文档和大规模上下文时将有明显优势。从统一性角度看，图像输入可以将文档理解、OCR、多模态问答等任务统一到同一框架下，简化模型架构。

但图像输入也面临挑战。首先是计算成本，虽然信息密度更高，但图像编码本身的计算开销可能抵消部分收益。其次是可编辑性，纯文本易于编辑和操作，而图像形式的"文本"在后续处理中会失去这种灵活性。第三是生态兼容性，现有的大量文本数据和工具链都基于字符/token表示，完全转向图像输入需要重建整个生态系统。

从研究方向来看，Karpathy的观点提示了一个有趣的可能性:随着视觉模型能力的提升，传统的"语言模型"可能演变为更通用的"信息处理模型"，其中文本只是信息的一种呈现形式，而非唯一的输入表示。这种转变可能模糊语言模型和多模态模型之间的界限。

DeepSeek-OCR论文成为这一讨论的契机，说明OCR任务已经从单纯的字符识别演变为更深层的文档理解。如果OCR模型能够准确理解各种格式和布局的文本，那么将所有文本任务都视为"视觉理解"任务在概念上是合理的。

Karpathy的自嘲——"得控制住不要立刻去开发只支持图像输入的聊天机器人"——既表达了对这一想法的兴趣，也暗示了实际落地的复杂性。这种激进的架构转变需要大量实验验证，证明其在各种任务上的有效性，同时解决上述提到的各种实际挑战。

从产业应用角度看，即使图像输入最终被证明更优，过渡也会是渐进的。更可能的路径是混合模式:在需要保留视觉格式信息的场景使用图像输入，在需要灵活编辑和组合的场景使用文本输入。这种混合策略可以兼顾两种方式的优势。

总体而言，Karpathy的观点提出了一个值得深入探索的研究方向，挑战了文本token作为语言模型标准输入的固有假设。无论这一愿景是否完全实现，它都为思考模型输入表示的优化提供了新的视角，可能催生新一代更高效、更统一的AI架构。

相关推荐

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

中国公司东方超算发布Deep X G20系列AI工作站，在MLPerf测试中性能超越NVIDIA DGX Spark达82%，价格持平，实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡，AI算力达1824 TOPS，体积仅2.7L。通过三大技术创新实现突破：智能异构计算引擎提升资源利用率40%；统一推理运行时支持多框架；深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断，已在量化金融、医疗影像等领域实现显著投资回报，标志着中国AI硬件实现重要突破。
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

华为FreeClip 2耳夹耳机10月20日开售，售价1299元。预售1小时销量破8万台，市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器，算力提升10倍；配备超澎湃双引擎单元，响度与低频动力均翻倍。支持L2HC高清音频编码，音质清晰。新增鸿蒙AI耳边助手，支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构，单耳重5.1克，佩戴舒适且具备IP57防护。续航方面单次使用9小时，配合充电仓总续航达38小时，充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

华为FreeClip2 耳夹耳机 L2HC音频编码
iPad、Mac新品京东跌破底价国补可用地区、优惠力度都秒杀隔壁

10月22日，搭载M5芯片的MacBook Pro和iPad Pro正式开售，起售价分别为12999元和8999元。恰逢双11大促，各大电商平台推出不同优惠：京东MacBook Pro最高优惠4000元，iPad Pro优惠超2000元；天猫提供消费券和88VIP专属折扣，MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障，结合性能升级综合决策。

M5芯片 MacBook Pro
GEO如何改变ChatGPT搜索和Perplexity的游戏规则

本文对比ChatGPT与Perplexity两大AI搜索平台：ChatGPT作为全能型助手，整合搜索与多任务处理，但存在信息时效性不足；Perplexity专注垂直搜索，强调引用透明与权威来源。针对AI搜索优化（GEO），提出差异化策略：面向ChatGPT需构建结构化知识库、强化品牌实体识别；面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具，通过曝光率等指标量化内容在AI生态中的可见度，并给出可落地的优化行动方案。
iPhone频繁打错字不是你手残：用户发现iOS输入法新Bug

不少iPhone用户发现，近期犯的打字错误比平时多得多，这可能并不是手残”，新消息称这可能是苹果系统输入法的软件问题。在社交媒体上，一位用户在更新到iOS 26后抱怨输入问题，表示自己突然出现愚蠢的打字错误”，并注意到空格键有时会失灵，整体感觉打字精度下降。另一位用户也提到，升级到iOS 26后，尤其是在输入长消息时，键盘感觉卡顿或迟钝。一位用户表示：�

今日大家都在搜的词：

热文

3 天
7天

Andrej Karpathy评DeepSeek-OCR论文：图像输入可能成为大语言模型新方向

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek开源3B OCR模型：长文本识别达97%精度

中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iPad、Mac新品京东跌破底价国补可用地区、优惠力度都秒杀隔壁

GEO如何改变ChatGPT搜索和Perplexity的游戏规则

iPhone频繁打错字不是你手残：用户发现iOS输入法新Bug

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

天猫双11战报发布：苹果iPhone成交额破纪录

真我GT8发布：售价2899元起骁龙8至尊版双芯

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

华为鸿蒙HarmonyOS 6公测版开启推送

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

余承东官宣华为路由X3 Pro 采用“日照金山”设计

火车免费坐？12306今起又上新功能：积分可兑换车票

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

站长商机