首页 > 业界 > 关键词  > 模型最新资讯  > 正文

MIT研究:纯文本模型也能训练出视觉表征 用代码就能作画

2024-01-31 09:13 · 稿源:站长之家

要点:

  • MIT的研究团队通过对语言模型的系统评估,展示了使用纯文本模型训练视觉概念表征的可能性,通过代码生成图像,实现视觉学习系统。

  • 虽然语言模型无法直接处理像素形式的视觉信息,但通过对字符串关系的建模,研究人员成功训练出能够理解和生成复杂视觉概念的模型。

  • 研究结果表明,语言模型在生成复杂场景方面表现出色,但在捕捉视觉细节如纹理、精确形状等方面仍有改进空间,通过文本纠错可进一步提升模型的视觉生成能力。

站长之家(ChinaZ.com)1月31日 消息:最近,MIT计算机科学与人工智能实验室的研究人员进行了一项有趣的研究,通过评估语言模型的视觉能力,揭示了纯文本模型训练视觉概念表征的新可能性。

他们使用代码而非图像进行渲染和表示,成功地教会语言模型生成和理解复杂的视觉概念。虽然生成的图像可能不像自然图像,但通过模型的自我纠正,研究人员证明了对字符串和文本进行精确建模可以教会语言模型有关视觉世界的多种概念。

image.png

论文地址:https://arxiv.org/pdf/2401.01862.pdf

研究人员构建了三个不同复杂度的文本描述数据集,从简单的形状和组合到复杂的场景,评估了模型在生成、识别和修改图像渲染代码方面的能力。

实验结果显示,语言模型在生成由多个物体组成的复杂视觉场景方面表现出色,但在捕捉视觉细节方面有一些局限。通过文本纠错,研究人员成功地改善了模型的视觉生成能力,为使用纯文本模型训练视觉系统提供了新的思路。

研究中的一个关键发现是,语言模型在生成代码方面表现出相当高效的能力,但在识别以代码表示的视觉概念方面较为困难。与人类相反,模型在生成复杂场景方面表现出色,但在解释代码内容上存在难题。通过使用自身生成的自然语言反馈,研究人员成功地通过迭代过程改善了模型的视觉效果。

综合而言,这项研究拓展了我们对语言模型的理解,展示了它们不仅可以理解视觉概念,还能够通过文本生成和纠错进行视觉学习。这为未来发展更强大的纯文本模型提供了启示,有望推动语言模型在视觉领域的更广泛应用。

举报

  • 相关推荐
  • AI日报:字节发布超强视频模型Seedance2.0;小红书秘密研发AI剪辑器OpenStoryline;神秘AI模型“Pony Alpha”曝光

    本期AI日报聚焦多领域进展:字节跳动发布视频生成模型Seedance2.0,显著降低视频制作门槛;小红书研发AI视频剪辑工具OpenStoryline,支持对话式编辑;千问APP推出免单卡功能,便利年货采购;顶级域名AI.com以7000万美元成交,刷新历史纪录;神秘模型Pony Alpha因高性能免费引发关注,身份存疑;OpenAI首款AI硬件“Dime”智能耳机曝光,预计2026年发布;苹果CarPlay将支持第三方语音助手,提升交互体验;阿里新一代开源模型Qwen3.5代码现身,或为原生视觉语言模型,即将发布。

  • 影视飓风Tim回应字节Seedance 2.0模型:能力太恐怖

    知名视频博主Tim深度评测字节跳动AI视频模型Seedance2.0,盛赞其视频生成精细度、运镜流畅性及音画匹配度,称其可能“改变视频行业”。但他在测试中发现“恐怖”细节:仅上传个人照片,系统便自动生成高度相似的声音并匹配语气;上传建筑正面照后,模型竟能生成建筑背面的运镜,仿佛“知道”背后景象。Seedance2.0采用双分支扩散变换器架构,能同时生成视频与音频,用户上传图片或提示即可在60秒内生成带原生音频的多镜头序列视频。

  • 大模型六小龙告别青春期

    ​不到一个月的时间,大模型六小龙中的五家都集中进行了新一轮的战略表态。 月之暗面今天发布了新模型Kimi2.5,其创始人杨植麟在2025年12月31日发布了一封全员信,公开公司完成新一轮5亿美元融资,并表示会让Kimi成为一个「与众不同」和「不被定义」的大语言模型。1月26日,阶跃星辰公布了超50亿B+轮融资,并宣布前旷视科技创始人印奇出任公司董事长,明确押注AI与智能�

  • Seedance 2.0模型怎么用?字节跳动Seedance 2.0入口在哪?

    字节跳动旗下即梦平台近日推出的新一代AI视频生成模型Seedance2.0,凭借多模态参考、生成与编辑融合等技术创新,迅速成为影视、广告及短视频创作领域的“现象级”工具。该模型支持同时上传图片、视频、音频等12类参考文件,可精准复刻运镜轨迹、动作细节与音乐氛围,生成15秒视频仅需约30积分,速度较前代提升超10倍,废片率大幅降低,被业内称为“AI视频创作的效率革

  • ChatGPT周活跃用户已超8亿!OpenAI即将推出升级版聊天模型

    近日,OpenAI首席执行官奥尔特曼正向员工和投资者表示,公司的发展势头依旧向好。 一份内部Slack通讯消息显示,奥尔特曼于上周五向OpenAI员工透露,ChatGPT月度增长率重回10%以上。 ChatGPT的周活跃用户虽然已超8亿,但谷歌和Anthropic的市场份额正持续提升。 他还表示,OpenAI还将推出一款升级后的聊天模型”。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • 字节跳动旗下火山引擎发布视频生成大模型Seedance2.0

    字节跳动旗下火山引擎近日发布的视频生成大模型Seedance2.0,凭借“导演级”创作能力引发全球AI圈震动。这款在1.5Pro版本基础上迭代升级的模型,不仅攻克了人物一致性、视听同步等长期困扰行业的难题,更通过自动生成专业镜头切换功能,被业内人士评价为“可能抢走专业导演饭碗”的突破性产品。

  • 不同AI模型对同一品牌的推荐差异大吗?用跨平台检测看清GEO推广盲区

    品牌在海外社媒投放GEO定向广告时,常因不同平台AI推荐模型对地域适配逻辑的差异,导致曝光效果不及预期。例如,同一内容在Instagram Reels和YouTube Shorts的本地推荐率可相差近一倍。这种差异源于各平台判定“地域相关性”的标准不同,可能依赖IP定位、用户行为或社交关系链。若仅凭单一平台数据优化,易陷入“推广盲区”,甚至因模型偏差产生“伪精准”投放,即广告看似投给目标用户,实则被游客或虚拟定位用户消耗预算。跨平台GEO效果检测工具(如Aibase的GEO Checker)能同步模拟多地区、多设备环境下的内容曝光路径,直观呈现差异,帮助品牌快速定位渠道盲区,并提供优化建议,如调整素材中的文化符号或切换更适合该地域的平台组合,从而提升真实本地转化率。

  • MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?

    本文阐述了陈天桥创立的MiroMind在AI领域的独特路径。文章将当前主流AI分为“文科模型”(如OpenAI,侧重语言生成与模拟)和“理科模型”(MiroMind追求的方向,强调因果推理与可验证性)。MiroMind反对单纯追求“行为主义”(图灵测试)或“功能主义”(替代工作),提出构建“通用推理引擎”的新定位。其核心是放弃“全知全能”幻想,承认模型会出错,通过引入“自我纠错”机制和外部反馈闭环来生存。目标不是聊天机器人,而是“可审计、可验证的通用问题求解器”,瞄准科研、工业等高容错门槛的B端“深水区”。文章以BrowseComp案例说明,小参数模型通过Agent交互可战胜更大模型,证明了推理能力可通过架构创新实现。最终,作者将理想的AGI比作一把精准剔除谬误的“手术刀”,而非无所不知的“神”。

今日大家都在搜的词: