首页 > 业界 > 关键词  > 多模态大模型最新资讯  > 正文

多模态2025:技术路线“神仙打架”,视频生成冲上云霄

2025-06-11 08:42 · 稿源: 光锥智能公众号

声明:本文来自于微信公众号 光锥智能,作者:魏琳华,授权站长之家转载发布。

一场大会,聚集了中国多模态大模型的“半壁江山”。

智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省理工)的相关专家学者。

自回归、扩散、原生多模态......围绕种种技术路线的论证和实践分享都证明了一件事:相比硕果仅存的大语言模型战场,多模态大模型的技术路线还远远没有收敛。

“多模态大模型已在特定场景启动落地,但尚未实现高度普适化。”智源研究院院长王仲远给出了这样的判断。他指出,根本性突破仍依赖更强大的基础模型——若多模态模型达到足够可用的水平,将推动产业进一步发展。

在种种空白中,多模态想要打开下半场的入口,显然还有一段路要走。

多模态,尚未迎来

“ChatGPT时刻”

“对于多模态模型而言,现在定义下半场还为时尚早,我们连上半场都还没有看到边界在哪里。”

面对“如何看待大模型下半场”的问题时,Sand.ai联合创始人张拯给出了这样的回答。

“慢一拍”的多模态大模型,限制了应用端的能力表现。以视频生成为例,智象未来CEO梅涛指出,目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。

叙事性,即保证视频“做5分钟和1小时是完整的故事”,保持IP的一致性;而在稳定性上,需要保证画面质量、运动连贯性、时序一致性等方面的稳定,目前表现较好;可控性,则是衡量视频内容生成的精准程度,第几秒出现什么镜头,人物做什么表情等要求非常高。但今天的大模型,还无法达到这样的水准。

现阶段,想要提升模型生成效果,数据质量就成了关键。

“我们为什么会看到Google的Veo3,很多模型做得很好、做得很逼真,如果在模型架构上大家都趋同的话,其实真正的竞争就取决于高质量的数据。”智象未来CEO梅涛说,“其实我们并没有产生所谓新的智能,只是在复制我们看到的这个世界。”

围绕如何提升多模态大模型的能力,多家企业所践行的技术路线并不相同。

相对于普遍采用Diffusion Transformer(Dit,即扩散Transformer)模型的文生图、文生视频领域,多模态大模型到底是采用自回归模型、扩散模型还是其他方式,业内对此没有达成共识。

在大会现场,Sand.ai CEO曹越给出了他对扩散模型带来的问题思考:

“技术层面,主流的Diffusion和Transformer的训练方案还是存在很大问题,核心问题在于可扩展性不足。”曹越说,“在Diffusion Transformer路线上,现在证明生成5秒视频可以有不错的效果,但随着模型规模提升,会快速达到瓶颈。”

即使在生成机制一致的情况下,模型架构和训练方式的不同也对模型生成效果带来影响。

在Luma AI创始人宋佳铭看来,多模态大模型进入下半场的前提,是上半场要先把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理足够快。

是将多个模态拼接训练,还是在一开始就采用统一架构,把各种模态的信息丢到一起统一训练,这就是多模态和“原生多模态”两条路线的区分。

“当前多模态大模型的学习路径,尤其是多模态理解模型,通常是先将语言模型训练到很强的程度,随后再学习其他模态信息。”王仲远说,“这就如同先达到博士学位水平,再去接触其他知识。”

然而,在上述过程中,模型的能力可能会出现下降。用王仲远的话说,模型的能力可能从 “博士” 水平降至 “大学” 甚至 “高中” 水平。

为了解决这个问题,智源研究院早在去年10月上线了全球首个原生多模态世界大模型Emu3,试图将多种模态的数据统一在一个架构内。

作为原生多模态模型,Emu3采用自回归的生成方式,基于下一个token预测范式统一多模态学习,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。

也就是说,你可以随意将文字、语音和视频丢给Emu3处理,而它也同样能够用这三种形式生成内容,实现跨模态交互。

想要通往多模态大模型的下半场,多模态数据形态的扩充也是关键之一。MIT CSAIL何凯明组博士后研究员黎天鸿认为,真正的“下半场”多模态,应该是模型能处理超越人类感官的数据。

在会议现场中,智源研究院也分享了在图像、文字、声音和视频之外,多模态数据形态的扩充——脑信号。

“悟界”大模型系列中的见微Brainμ就脱胎于Emu3的“骨架”中。基于Emu3的底层架构,智源研究院成功将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,并完成了100万单位的神经信号预训练。

图片

“脑信号数据是第一个尝试,”王仲远说,“具身领域的数据有更多模态,比如,3D信号、时空信号等,都可以作为一种模态进行融合。”

可以说,做原生多模态大模型的成本高、技术实现困难,对于拼落地速度的企业来说,是一个冒险的尝试。作为科研机构,智源研究院在做的事情,就是先替行业蹚出一条路。

多模态生成落地拐点,

视频模型加速商业厮杀

在学界和业界探索技术道路的同时,企业端正在加速多模态大模型在行业中的落地进程,这也是中国AI发展的鲜明特色——商业化和模型发展并驾齐驱。

字节跳动Seed图像&视频生成负责人黄伟林给出两组数据印证:2025年,就是图像生成商业化元年。

“以效率数据为例,用户生成100张图的下载率在过去一年提升了3倍,如今高达60%以上,说明它已经越过了商业化的关键门槛。”黄伟林说,“从用户留存来看,比如30天留存,从原来的十几个百分点提升到了40%左右。”

当技术门槛逐渐降低、成本效率达到要求,AI视频生成也迎来了市场增长的黄金期。

黄伟林表示,目前头部视频生成产品的年化收入(ARR)预计今年达到1亿美元,明年可能增长到5到10亿美元。

生数科技CEO骆怡航也认为,今年多模态生成正处于规模化生产落地的拐点:在技术迭代迅速,效果、速度和成本提升的同时,行业需求增长旺盛,视频相关产业的落地节奏也在提速。

虽然当前大模型技术路线并不收敛,但在目前应用落地的阶段,AI视频生产已经能够协助人类完成那些本身耗时耗力、成本高的拍摄需求,并且把生成时间压缩到极低。

张拯认为,在不同发展阶段,AI视频生成会有完全不同的PMF。

比如,在早期阶段,很多交给人都非常难拍的视频,即使质量很差或者需要非常多的抽卡才能抽到视频,但是也远比搭一个景再拍内容的成本低4~5个数量级。

张拯举了个例子,比如拍摄在太空中的航空母舰,需要通过特效团队逐帧去做。但是现在交给模型,哪怕需要100次抽卡,最后要500元才能抽出一个片段,这个成本也比之前低很多。

在大量的应用场景下,中国的多模态大模型公司们,围绕着B端还是C端、哪条路先走的商业化路线,给出了不同的答案。

现阶段,AI视频在C端应用的突出案例,就是依靠视频生成的AI视频特效

曾在TikTok团队提供AI视频技术支持,爱诗科技创始人王长虎分享了旗下产品PixVerse的突破里程碑,就来自于特效模版的上线。

据王长虎分享,通过特效视频模版在抖音以及国内外各大社交媒体上的传播,PixVerse打响了知名度。当月,在中国产品出海增速榜,PixVerse排在第二名,访问量提升80%。他还分享了一个印象深刻的数据——今年4月,超过PixVerse MAU增长的AI产品只有DeepSeek。

图片

在技术快速迭代的同时,爱诗科技在商业化做出了自己的选择——先做To C,再做To B。靠着C端带起的声量,爱诗科技今年将版图放到了B端,于今年1月支持各行业的API和定制化视频生成,涵盖互联网、营销、电商等。

相比之下,生数科技更早聚焦视频生成大模型如何落地产业端的问题。成立两年的时间里,生数科技有1年半都在琢磨落地问题,更在行业划分上,骆怡航给出了“八大行业、三十大场景”的版图,其中,互联网、广告、电影、动漫的应用占到了8成。

在切入B端的思考中,生数科技强调的是对成本以及生产效率的降低。

“要想满足技术需求,很重要的一点是,(AI视频生成)生产效率要提升100倍,生产成本要降低100倍,必须要和行业深入适配,满足行业的专业需求。”骆怡航说。

骆怡航分享,一家海外动画工作室和VIDU合作,打造了一个“AI动漫”工作流,能够批量生成创意,他们用两个月时间,生产了50集AI动漫短片。

当效率和生成达到满足商用的节点,当AI企业们陆续把商业化提上日程可以预见的是,下半年,多模态领域的AI生成将在商业化上迎来更激烈的比拼。

举报

  • 相关推荐
  • 2025过半,“爱优腾”没有赢家?

    2025年过半,上半年,“爱优腾”三家在有效播剧上各有千秋,都有不同出圈程度的爆款剧集,《无忧渡》《折腰》《藏海传》先后成为流量收割机。更早之前,还有《宴回时》《难哄》《漂白》等剧集刷屏。 不过,如果从数据维度进行排名的话,还是能分出伯仲。从播放量、市占率、集均播放等关键指标来看,上半年剧王应该毫无争议当属优酷的男频权谋剧《藏海传》。市�

  • 2025低空技术与工程大会在京开幕

    2025低空技术与工程大会于6月7日在北京延庆区隆重开幕。大会由北京理工大学等多家单位联合主办,发布了《低空技术与工程发展报告》和《低空技术产业创新场景清单》两项重要成果,为低空技术产业发展提供战略指引。现场启动了低空技术产学研创新平台和科技成果转化平台,并举行"国彩低空技术产业研究院"揭牌仪式。延庆区依托独特空域资源,已聚集超百家行业领军企业,构建了无人机全产业链生态,成为北京市无人机驾驶航空示范区。大会将持续至6月9日,汇聚高校专家、企业代表共同探讨低空领域技术创新与产业集聚发展。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • Baidu Steamer-I2V推动视频生成技术突破,擎舵平台赋能原生创意营销

    百度推出全球领先的视频生成模型Baidu Steamer-I2V,以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化,能将静态图像转化为连贯动态视频。百度营销平台迎来2周年,已服务超13万家企业,日均生产素材超10万+。在"AI驱动营销全链路升级"主题下,百度与核心代理商共同探讨AIGC技术突破与创意升级,推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势,同时突破创意边界,实现营销效果飞跃。未来百度将优化模型性能,拓展应用场景,推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

  • 恩捷股份CIBF 2025完美收官 以技术锻造行业发展主引擎

    5月17日,第十七届深圳国际电池技术交流会/展览会(CIBF2025)圆满落幕。恩捷股份作为锂电池隔膜行业龙头企业,携多款核心产品及创新技术亮相展会,展示了覆盖锂电池材料全技术路线的产品矩阵,包括湿法隔膜、干法隔膜、铝塑膜三大基础材料,以及代表行业前沿技术的半固态/全固态产品。展会期间,恩捷股份举办了两场重磅新品发布会,推出高安全基膜X系列、高浸润基膜I系列两款基膜产品,以及超纯硫化锂、超细硫化物固态电解质、高电导硫化物固态电解质膜等全固态硫化物尖端产品,获得广泛赞誉。公司还与国内外行业顶尖企业、专家围绕锂电池隔膜、固态电池材料技术及新能源产业发展趋势展开深度探讨,进一步巩固战略合作关系。恩捷股份以技术创新引领行业发展,为全球能源转型提供坚实支撑。

  • 2025年国补结束时间已确定!统一截止时间为2025年12月31日

    国家发改委、财政部最新文件明确,2025年家电、手机数码、汽车三大领域的国家补贴(国补)全国统一结束时间为2025年12月31日。但需注意:河南、湖南等省份因补贴额度紧张,可能提前至12月中旬截止。消费者需抓住最后6个月红利期,避免错过"真金白银"福利。补贴细则:家电类最高补贴20%,手机数码类按售价15%补贴(最高500元),新能源汽车报废旧车最高补2万元。领取方式:京东APP搜索"家电省2000"或"数码省2000"直接立减。部分省份叠加地方券后综合补贴比例可达20%。建议尽早申请,尤其汽车置换补贴额度竞争激烈。

  • 2025国补和618能叠加吗?2025淘宝天猫京东618活动时间优惠满减规则

    2025年618购物节首次实现国家消费补贴与电商大促深度联动,消费者可享"双重优惠叠加"福利。京东、淘宝、天猫三大平台活动时间为5月13日-6月20日,家电类商品叠加国补后最高优惠可达40%。重点攻略:1)搜索口令"好运红包7788"可领大额红包,京东/淘宝APP每日可领;2)家电、数码产品可叠加国补(家电补贴20%、数码15%),需通过指定入口领取并使用实名支付方式;3)最佳购买时段:6月1日京东开门红享30天价保,6月16-18日跨店满减力度最大。建议提前锁定补贴资格,注意热门商品补贴名额有限,支付需绑定指定渠道。

  • “文物+美食”出圈,2025抖音美食区究竟有多“卷”?

    如今,我们该怎样理解美食与生活的关系? 是古法美食,是乡愁之味,抑或传承千年的日常菜肴。饮食,是一日三餐人体必需,也是每个人生活的投射、情绪的载体。即使是快节奏的当下,好好吃饭,仍是每个中国人认真生活的表达。 当蛋糕版文物妇好鴞尊连线鉴宝直播间,博物馆中的冰冷文物与充满烟火气的食物意外碰撞出光彩。巧克力制作的圆明园海晏堂,蛋糕翻糖版虎

  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • 2025数据安全发展大会召开:亮点频现,精彩纷呈

    2025年5月16-18日,"瓯江论数 数安未来"主题的数据安全发展大会在温州瓯海区举行。大会由温州市政府主办,汇聚国内外顶尖学者、行业领袖及企业代表,围绕数智融合、模型赋能、产业蝶变等议题展开探讨。亮点包括:1)高规格政产学研对话,国家数据局局长刘烈宏等领导出席;2)发布《高质量数据集发展报告》等重磅成果;3)促成温州与25个城市的数据要素"百城行动"联盟签约;4)举办31场专题论坛,覆盖智能交通、医疗健康等热点领域;5)同期举办全国"数据要素×"大赛温州分赛。大会通过学术交流与项目签约,推动数据安全治理与数字经济发展,打造产业生态高地。