首页 > AI头条  > 正文

Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向

2025-10-21 14:18 · 来源: AIbase基地

特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在推特上评论了开源的DeepSeek-OCR论文,提出了一个颇具启发性的观点:相比传统文本输入,图像作为大语言模型(LLM)的输入形式可能更加高效。这一观点在AI研究社区引发了关于模型输入方式未来演进方向的讨论。

Karpathy认为,当前广泛使用的文本token输入方式可能既浪费又低效,未来研究或许应该转向图像输入。他从几个维度阐述了图像输入相比文本输入的潜在优势。

首先是信息压缩率的提升。将文本渲染成图像后,可以用更少的视觉token传递更多信息。这是因为一个图像patch可以包含多个字符的信息,而在传统文本tokenization中,每个字符或子词都需要单独的token。在处理大规模上下文时,这种压缩可能显著提升模型效率,降低计算成本。

image.png

其次是信息表达的丰富性。图像输入天然支持加粗、颜色、字体大小、布局等视觉元素,这些格式信息在传统纯文本输入中要么丢失,要么需要通过额外的标记语言(如Markdown)来表示,后者又会增加token消耗。直接使用图像可以让模型更自然地理解文档的视觉结构和强调重点。

第三是注意力机制的优化空间。图像输入可以使用双向注意力机制,而传统的文本生成任务通常采用自回归的因果注意力。双向注意力能够让模型同时关注上下文的所有位置,通常能提供更强的理解能力。这种处理方式避免了自回归文本处理的一些固有限制。

Karpathy特别批评了tokenizer(分词器)的复杂性。他认为tokenizer是一个非端到端的历史遗留模块,引入了许多不必要的复杂性。例如,视觉上相同的字符可能因为来自不同Unicode编码而被映射到不同的token,导致模型对看似相同的输入产生不同的理解。去掉tokenizer直接处理图像,将使整个系统更加简洁统一。

从技术实现角度看,Karpathy的观点建立在视觉编码器已经相当成熟的基础上。Vision Transformer等架构已经能够高效处理图像输入,而DeepSeek-OCR等模型证明了视觉到文本的转换可以达到很高的准确率。将这种能力推广到所有文本处理任务,在技术上具有可行性。

不过Karpathy也指出了一个不对称性:虽然用户输入可以是图像,但模型输出仍需要保持为文本形式,因为生成逼真的图像仍然是一个未完全解决的问题。这意味着即使采用图像输入,模型架构仍需要支持文本生成,不能完全摒弃文本处理能力。

这一观点引发的讨论涉及多个层面。从效率角度看,如果图像输入确实能提高信息密度,在处理长文档和大规模上下文时将有明显优势。从统一性角度看,图像输入可以将文档理解、OCR、多模态问答等任务统一到同一框架下,简化模型架构。

但图像输入也面临挑战。首先是计算成本,虽然信息密度更高,但图像编码本身的计算开销可能抵消部分收益。其次是可编辑性,纯文本易于编辑和操作,而图像形式的"文本"在后续处理中会失去这种灵活性。第三是生态兼容性,现有的大量文本数据和工具链都基于字符/token表示,完全转向图像输入需要重建整个生态系统。

从研究方向来看,Karpathy的观点提示了一个有趣的可能性:随着视觉模型能力的提升,传统的"语言模型"可能演变为更通用的"信息处理模型",其中文本只是信息的一种呈现形式,而非唯一的输入表示。这种转变可能模糊语言模型和多模态模型之间的界限。

DeepSeek-OCR论文成为这一讨论的契机,说明OCR任务已经从单纯的字符识别演变为更深层的文档理解。如果OCR模型能够准确理解各种格式和布局的文本,那么将所有文本任务都视为"视觉理解"任务在概念上是合理的。

Karpathy的自嘲——"得控制住不要立刻去开发只支持图像输入的聊天机器人"——既表达了对这一想法的兴趣,也暗示了实际落地的复杂性。这种激进的架构转变需要大量实验验证,证明其在各种任务上的有效性,同时解决上述提到的各种实际挑战。

从产业应用角度看,即使图像输入最终被证明更优,过渡也会是渐进的。更可能的路径是混合模式:在需要保留视觉格式信息的场景使用图像输入,在需要灵活编辑和组合的场景使用文本输入。这种混合策略可以兼顾两种方式的优势。

总体而言,Karpathy的观点提出了一个值得深入探索的研究方向,挑战了文本token作为语言模型标准输入的固有假设。无论这一愿景是否完全实现,它都为思考模型输入表示的优化提供了新的视角,可能催生新一代更高效、更统一的AI架构。

  • 相关推荐
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 中国AI算力突围:东方超算Deep X算力盒子超国际竞品82%,重新定义行业标准

    中国公司东方超算发布Deep X G20系列AI工作站,在MLPerf测试中性能超越NVIDIA DGX Spark达82%,价格持平,实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡,AI算力达1824 TOPS,体积仅2.7L。通过三大技术创新实现突破:智能异构计算引擎提升资源利用率40%;统一推理运行时支持多框架;深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断,已在量化金融、医疗影像等领域实现显著投资回报,标志着中国AI硬件实现重要突破。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • AI日报:Veo 3.1可生成1分钟视频;蚂蚁发布万亿参数语言模型 Ling-1T;Lovart可免费玩Sora2

    本期AI日报聚焦多项技术突破:Veo 3.1视频生成模型实现角色一致性与多场景叙事升级;蚂蚁发布万亿参数Ling-1T语言模型,推理能力领跑行业;xAI推出电影级视频生成模型Imagine v0.9;软银斥资53.75亿美元收购ABB机器人业务布局物理AI;Vercel v0新增图像编辑功能简化设计流程;OpenAI Sora2首日安装量飙升至应用商店第三,同时引发深度伪造伦理担忧;Lovart平台限时免费开放Sora2无水印视频生成;ChatGPT推出应用生态,正式升级为多功能服务平台。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • 华为FreeClip 2耳夹耳机正式开售:售价1299元 搭载NPU AI处理器

    华为FreeClip 2耳夹耳机10月20日开售,售价1299元。预售1小时销量破8万台,市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器,算力提升10倍;配备超澎湃双引擎单元,响度与低频动力均翻倍。支持L2HC高清音频编码,音质清晰。新增鸿蒙AI耳边助手,支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构,单耳重5.1克,佩戴舒适且具备IP57防护。续航方面单次使用9小时,配合充电仓总续航达38小时,充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

  • iPad、Mac新品京东跌破底价 国补可用地区、优惠力度都秒杀隔壁

    10月22日,搭载M5芯片的MacBook Pro和iPad Pro正式开售,起售价分别为12999元和8999元。恰逢双11大促,各大电商平台推出不同优惠:京东MacBook Pro最高优惠4000元,iPad Pro优惠超2000元;天猫提供消费券和88VIP专属折扣,MacBook Pro可享国家补贴。建议消费者对比各平台优惠力度及服务保障,结合性能升级综合决策。

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • iPhone频繁打错字不是你手残:用户发现iOS输入法新Bug

    不少iPhone用户发现,近期犯的打字错误比平时多得多,这可能并不是手残”,新消息称这可能是苹果系统输入法的软件问题。 在社交媒体上,一位用户在更新到iOS 26后抱怨输入问题,表示自己突然出现愚蠢的打字错误”,并注意到空格键有时会失灵,整体感觉打字精度下降。另一位用户也提到,升级到iOS 26后,尤其是在输入长消息时,键盘感觉卡顿或迟钝。 一位用户表示:�

今日大家都在搜的词: