首页 > 业界 > 关键词  > 正文

模型即审美:生图模型们正建起自己的“视觉方言”

2026-05-07 10:22 · 稿源: 硅星人Pro公众号

声明:本文来自于微信公众号 硅星人Pro,作者:赵舟辰,授权站长之家转载发布。

最近在测试各种AI生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。

Image-2生成的图就像我昨天随手拍的,但Nano Banana生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵,有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别,而是每个模型对"什么值得被看"有了不同的商业假设。

这就是"模型味",也就是这种模型特点的底色——一种被量化、被大规模复制、正在成为下一代视觉内容底色的审美偏执。

Image-2:隐藏于真实世界的间谍

Image-2的核心逻辑很简单:放弃所有摄影技巧,只生成人眼真实看到的样子

从商业角度看,这意味着最低的视觉加工成本。

下雨天的公交站不需要电影级打光——就是淅淅沥沥、萧瑟的样子。

吃了一半的外卖不需要精修——油腻、不怎么美观就是它的真实成本结构。

深夜的便利店黑漆漆一片,只有711亮着灯的诡异感。

垃圾桶周围天色微微沙尘,柏油马路有些年头的感觉。

城中村那种根本没有管制,小商小户们一起在小小地方无规则的拥挤的感觉非常真实。

这些"不完美"其实是成本最低的表达方式——因为它们就是现实本身。

阳台的晾衣杆虽然有点穿帮,但是那种黑云压城城欲摧的低气压感表达的很到位,那些现实的瑕疵、不规则感,别的模型可能视为缺陷要修正,Image-2却把握得很到位。为什么?因为这些不规则本身就是真实的证明,也是最省算力的渲染方案。它不会给你打光、调色、精心构图,它就是你的眼睛——你瞥到什么,它就生成什么。

这就是Image-2的商业密码:看它的输出,你的第一反应永远是"这好像是我昨天看过的",而不是"这是AI生的"。它成功地把自己隐没在了日常生活里,成为最隐形的摄像机。对于需要大量真实素材的产品(比如Adobe的设计工具),这种"不被认出来"反而是最大的价值——用户不需要二次加工,直接可用。

Nano Banana2:楚门世界的艺术总监

Nano的逻辑完全相反——把现实变成一个被精心摆拍的世界,让每一个物体都配得上被凝视和转化

同样是垃圾堆,Image-2给你的是真实的脏乱臭味,Nano给你的是一个艺术布景。

一杯水在Image-2里是一杯普通的水,在Nano里就是摆在这里要拍轻松闲适氛围的广告道具。

半个西红柿不是随便切的——二十精挑万选、打了面光、喷了水、特意固定了位置。

一块泥巴也是,有人找了平整的土地,喷了点水,团了一把泥巴,塑了塑形,摆到正当间,调整了构图才拍的。

这个刚起床的卧室根本毫无睡了一夜的杂乱感,而是感觉这是一个卧室家居用品的广告拍摄现场

这几张塑料拖鞋,生锈的铁钉,洗手台上的肥皂,都有一种精心的摆拍感

这不是无用功。Nano Banana的核心商业假设是:如果要大规模生成内容,不如直接生成"已经被设计过的现实"。对Google的Cosmic这样的web端产品来说,这意味着素材可以直接用,无需二次打磨。售楼处的宣传图就该这样——精致、无暇、充满了"生活在这里很舒服"的心理暗示。这是一种更直接的商业转化逻辑。

Nano Banana 的世界观很清晰:本该自然无序的一切,都被调教得更适合被观看、被欣赏、被购买。这是一个过度设计的乌托邦,也是互联网产品想要呈现给用户的那个理想世界。

豆包/即梦:不太全能的情感阐述高手

字节系的这两个模型遇到了一个典型的商业难题:把大部分算力投给了人物情绪和面部特征,其他维度的成本控制就显得很吃力

优势很明显。望着窗外的女孩那张,舒适和惬意表达得精准。

流浪猫那张,把可怜无助、还有点惧怕人而保持一点攻击性的感觉表达得很精确。这种对人物细微情绪的洞察力在竞品中很难复现。对于需要"打动人"的内容场景(比如短视频封面、社交媒体素材),这种能力是真正的稀缺资源。

但短板也很直白。色调比较浓重,暖调和冷调十分失衡。最能暴露问题的是光影处理——光线要么极度强烈,要么几乎没有光影。影子一多了,豆包就干脆只精心生成有光线的地方。在生成智能手机、旧书店角落、黑咖啡这些图片中,这个成本分配的不均衡表现得最突出。

桌面橘子这张图片的背景处理问题更严重。纵深感表达不好,有一种背景要翻上来的感觉。最极端的是智能手机那一张,背景直接变成大白板——这样手机这种狭窄的光影才能比较不费算力地生成。还有个有意思的现象:豆包过于爱渲染"氛围",有时会按照自己对"氛围"的理解去改写你的需求,而不是真正听你的。

这其实反映了一个更大的问题:当模型在某个维度投入过多,就会被迫在其他维度做出妥协。字节的选择是用"情感打动"来补偿"场景还原"的不足,这在内容创意场景可能有效,但在需要全方位精致度的场景就会显得单薄。

可灵:追求帧帧充满故事感的好莱坞导演

可灵作为短视频的主力生成工具,遵循的是完全不同的商业逻辑——每一帧都必须在讲故事

所有的图都被放置在了一个已有的世界观或语境里,每一个画面都在暗示:接下来会发生什么。这种"预叙事"能力体现在细节里。正在系鞋带的男人,你一看就感觉他发现你在看他了。走廊尽头那张,透视感极强,感觉是高档酒店的短剧现场,你能想象有人会从那头走出来。地下停车场给人安静的诡异感,下一秒灯就会从远处一个个快速熄灭。

这种故事感体现在对摄影技巧的精准运用上。掉在地上的雨伞用侧逆光、死角做了黑暗虚化处理,像案发现场证物。后视镜里的眼睛,构图压迫感极强,直接聚焦在后视镜。空荡的地铁车厢调色真实到电影级别,有《黑客帝国》的感觉。

可灵的成本结构是:用光影、构图、虚化、调色等所有摄影语言服务于叙事,把静止画面转化成正在展开的故事。这对短视频、游戏角色、广告创意这类"需要视觉冲击"的场景是理想的。但如果你只是想要一张干净的产品图,可灵会强行给你加上故事性——这种"过度设计"在某些场景反而成了负担。

使用越多,越会发现今天各个模型都有了它自己的一套视觉“方言”,而这些视觉语言都是审美的直接反映,模型逐渐在审美品味上直接区分开来。

而除了各种数据和训练方法带来的审美不同,选择不同模型时,还有不同的成本考量。

需要真实/电影级素材用Image-2——现实感强,瑕疵本身就是素材,省去了后期精修的成本。需要3A游戏场景或房屋中介宣传图用Nano Banana2——那种真实华丽但又一眼看出不是现实的感觉,正好适配售楼处"理想化呈现"的成本结构。需要表达人物情绪和面部特征用豆包或即梦——这两个模型在"情感转化"上的成本最低需要游戏人物或短视频素材用可灵——叙事感和视觉冲击力的ROI最高

这都会使得接下来AI生图的竞争从"谁更强"转向"谁的味儿更对口"。而且,这种视觉倾向和偏好在使用中会再被加强,形成一个个风格的闭环。最终,最多用户的几个主要的模型很可能会一起改变人们对于审美的最根本理解。

举报

  • 相关推荐
  • DeepSeek回应“乱回”漏洞:特殊字符引发模型幻觉

    面对近期网络上愈演愈烈的隐私泄露猜测,DeepSeek官方今日正式作出回应。一份关于特定字符触发模型异常回复的说明被发布出来,试图为这场“串台”风波画上句号。 DeepSeek技术团队在全面排查后,给出了完全否定的结论。官方的解释是,输入“think”等字符后所返回的异常内容,实质上属于一种特殊字符引发的“模型幻觉”,并不涉及任何安全层面的问题,更不是隐私泄露

  • 小米自动驾驶模型Xiaomi OneVL开源:业内率先统一VLA、世界模型路线

    今日,小米正式发布并开源Xiaomi OneVL自动驾驶模型。 该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案。 其在精度上超越显式CoT、在速度上对齐仅答案”预测的潜空间CoT方案。过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解�

  • DeepSeek回应信息“串台”BUG:特殊字符引发模型幻觉 不会泄露隐私

    近期有网友反映DeepSeek输入“think”字符会出现隐私泄露问题,模型输出无关内容且结果各异。DeepSeek官方今日发布说明称,经排查,该现象属于特殊字符引发的模型幻觉,不涉及安全或隐私泄露。后续将通过针对性训练增强模型对特殊字符的识别与处理能力,优化相关表现。公司始终重视用户数据安全与体验,感谢关注与监督。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 百度文心大模型5.1正式发布

    百度正式发布了新一代基础大模型——文心大模型5.1。该模型采用了自主研发的“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,便达到了基础效果领先的水平,并登上LMArena搜索榜国内第一的位置。 在多项行业权威基准测试中,文心5.1在智能体、知识理解、逻辑推理以及深度搜索等核心能力上表现突出。其中,智能体能力提升显著,已超越DeepSeek-V4-Pro;创意�

  • 华为HMS for Car北京车展实车体验,海外AI大模型上线

    在2026年北京车展上,华为HMS for Car推出全新升级的一站式座舱生态解决方案,以AI为核心,整合AI Box、Map Box、Service Box和Net Box四大模块,解决海外市场地图更新滞后、多语言适配成本高、生态适配难和跨国网络接入管理等痛点。AI Box搭载大模型,支持多语言语音交互,Map Box提供实时导航,Service Box聚合全球生态,Net Box确保稳定连接,助力中国车企降低研发成本,加速全球化布局。

  • 小米自研AI大模型!Xiaomi MiMo再次登顶全球第一

    小米官方今天发文宣布,小米技术官方宣布,在OpenRouter平台最新数据中,Hermes Agent登顶全球调用量榜首,日Token调用量达2910亿,周调用量超1.75万亿。 小米自研MiMo模型成为第一大贡献模型,近一个月累计贡献1.45万亿Token调用量。

  • 普渡机器人正式发布具身智能大模型PuduFM 1.0

    2026年5月11日,普渡机器人发布具身智能大模型PuduFM1.0,构建三维空间深度感知、物理状态预测和持续进化学习三大技术维度,实现从“简单执行”向“物理认知”的跨越。该模型通过分层架构和虚实双数据闭环,解决行业在协作、操作和异构数据复用上的困境,支持超长程任务和异构机器统一运行,推动具身智能规模化落地。

  • 2026破解PPT制作痛点:文多多AIPPT全链路赋能模型重构高效办公!

    传统PPT制作存在耗时漫长、风格杂乱、数据安全三大痛点。文多多AIPPT推出的AI-PPT全链路赋能模型,基于大语言模型实现需求解析、内容生成、视觉呈现、演讲辅助、企业适配五大环节智能化。用户输入标题或上传文档,20秒生成结构化大纲,30秒完成排版美化,自动匹配商务、教学等场景模板。该模型支持个人一键生成与企业私有化部署,某高校教师备课时间从1个月缩至2周,某央企通过API对接CRM系统实现PPT标准化制作,将重复劳动交给AI,让用户专注核心创意。

  • 能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

    火山引擎宣布Doubao-Seed-2.0-lite升级,成为豆包大模型家族首款全模态理解模型。新版支持视频、图像、音频、文本原生统一理解,并同步升级Agent、Coding与GUI能力,增强多模态推理。在视觉理解上,该模型在物理HiPhO、医疗MedXpertQA等高阶学科推理任务中大幅超越2月发布的Doubao-Seed-2.0-pro,并在BabyVision、WorldVQA等领域达SOTA水平。升级重点融入语音理解,可同时处理多种输入模态并完成跨模态联合推理,支持19语种语音转写及中英等互译,捕捉情绪、环境声等细节。该模型还深度适配OpenClaw等框架,强化深度搜索与Skill动态调用,实现越用越聪明。

今日大家都在搜的词: