首页 > 热点 > 关键词  > 可灵AI最新资讯  > 正文

CVPR2025:快手可灵四大技术方向布局视频生成及世界模型

2025-06-25 08:56 · 稿源:站长之家用户

近日,全球视觉AI领域的年度盛会CVPR2025 在美国田纳西州纳什维尔召开,快手可灵AI事业部万鹏飞博士在备受瞩目的“From Video Generation to World Model” Tutorial(《从视频生成到世界模型》专题讲座)上,发表了题为An Introduction to Kling and Our Research towards More Powerful Video Genaration Models的报告,从模型架构与生成算法、互动与可控能力、效果评估与对齐机制、多模态理解和推理四大技术方向介绍了可灵AI团队在视频生成及世界模型领域的比较新进展与思考。

先进的模型结构与生成算法(Advanced Model Architectures and Generation Algorithms)

Scaling laws在大语言模型中已经有众多研究工作和实际应用,但视频生成领域缺乏准确好用的scaling laws公式。可灵团队通过严谨的实验与分析,初次建立了超参数、模型规模与计算预算之间的比较准确数学关系。这个成果让我们可以更科学地设置模型参数规模和关键参数,从而更充分的发挥算力和数据资源的价值,达成更优的模型效果。参考论文:Towards Precise Scaling Laws For Video Diffusion Transformers

可灵团队还推出了面向扩散模型的混合专家(MoE)架构DiffMoE。基于全局范围的token选择机制和配套的推理策略,DiffMoE可根据扩散模型在不同生成阶段的异构特性,更合理地分配计算资源。在图像生成中,仅需激活 1 倍的参数量,便能达到 3 倍规模的密集模型的生成性能。参考论文:DiffMoE: Dynamic Token Selection For Scalable Diffusion Transformers

强大的交互与可控能力(Powerful Interaction and Control Capacities)

可灵团队提出了一个多任务视频生成模型框架FullDiT,将所有时空条件作为上下文无缝融合到一个统一的Diffusion Transformer架构中。FullDiT不需要针对不同任务更改模型结构,降低了各种不同控制条件之间的冲突,且展示出了优秀的可扩展性甚至涌现能力。参考论文:FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

在交互式视频生成方向,可灵团队提出了GameFactory框架,只需少量带有动作控制信息的视频训练数据,即可支持可泛化到不同游戏场景的连续(如鼠标)和离散(如键盘)的动作控制能力。参考论文:GameFactory: Creating New Games with Generative Interactive Videos

准确的评估和对齐机制(Accurate Evaluation and Alignment Mechanisms)

可灵团队构建了一套基于人类反馈的强化学习(RLHF)的视频生成框架,包括多维偏好数据构造、基于VLM的Reward模型,以及多种对齐算法。该框架是最早的系统性阐述如何应用RLHF到视频生成任务的工作之一。参考论文:Improving Video Generation with Human Feedback

此外,面向图像和视频生成领域主流的流匹配(Flow Matching)生成算法,团队通过ODE-to-SDE(常微分方程转换到对应的随机微分方程)等方案,有效解决了流匹配缺乏随机性以及多步生成计算效率低的问题,提出了头个将GRPO引入流匹配模型的在线强化学习(RL)算法Flow-GRPO,并证明了其在图像生成任务中的有效性。参考论文:Flow-GRPO: Training Flow Matching Models via Online RL

多模态感知与推理(Multimodal Perception and Reasoning)

视频captioner(视频内容的文本描述模型)对最终的视频生成效果非常关键,但行业中缺乏好的效果评估的方法。可灵团队提出一个视频captioner评估框架VideoCapBench,具备稳定性和可靠性更高、以及与最终视频生成效果相关性强的优点。参考论文: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

面向用户意图理解,可灵团队提出的Any2Caption按照一种统一的方式理解多模态用户输入信息,进而生成语义丰富的结构化描述,可显著提升视频生成的成功率。参考论文:Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation

除tutorial报告外,本届CVPR上可灵共有 7 篇论文入选,涵盖视频模型scaling law、视频数据集、可控生成、人像生成、高清生成、4D生成等多个方向。

举报

  • 相关推荐
  • 《新世界加载中》收官,可灵AI拓宽影像边界

    “AI是人类文明进步的产物,也是我们跨越未来的重要助力。”通用人工智能时代,著名人工智能研究学家肖博士,在某项目出现重大突破后,向全世界发布了含有上述内容的AGI时代宣言。 “您觉得在大势所趋的当下,这个世界还有人工智能尚未普及的地区吗?”面对记者的这一疑问,肖博士开了一个玩笑,“也许,银河系之外”。 可在他脑海中出现的画面,却是破败的村庄�

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • 《2025快手短剧白皮书》发布:快手短剧日活用户突破3亿,发力“短剧+AI”

    2025年暑期短剧市场持续爆发,快手星芒短剧率先开启"档期化运营",计划推出20余部精品短剧,包括《黑桃四姐妹》《进击的潘叔》《她不是敌人》等爆款作品。数据显示,潘长江主演的《进击的潘叔》播放量破3亿,其他多部作品播放量也突破亿级。快手短剧日活跃用户超3亿,2024年7月重度用户规模达1.46亿,同比增长55.3%。AI技术赋能创作突破题材局限,《山海奇镜之劈波斩浪》《新世界加载中》等AIGC剧集表现亮眼,全球播放量分别达4.3亿和13.7亿。平台商业化成效显著,2024年合作剧目从29部跃升至135部,增长率达365%,第四季度商业化消费额同比增长300%。付费与广告变现规模持续扩大,25家品牌客户单日消费峰值突破百万元,2025年春节档广告消费峰值突破3000万元。快手短剧通过"技术驱动+生态共建"模式,激活3亿用户消费势能,实现内容品质与商业模式全方位升级。

  • 在AI工具间来回切换了1年后,可灵用一张画布终结了它。

    ​这次去WAIC,论坛、探展直播、活动等等,硬生生干了个周末,几乎累麻了。 我自己这两天印象最深的,也是我觉得对我最有用的。 还是可灵的更新。 他们首发了1个全新的功能,灵动画布,还把之前的多图参考做了巨幅升级。 这两都挺酷的。 我当时在现场,录了一下灵动画布的发布,真的,发完以后底下掌声雷动。 这个形态我当时看完以后,眼前一亮,确实非常的有

  • 跨越2000公里点亮乡村学生科技梦想,快手“启智未来学堂”科技AI夏令营启动

    快手公益基金会举办"启智未来学堂"科技AI夏令营,带领青海果洛州24名牧区学生赴京研学。活动通过AI绘画、VR航天体验、智能物流园参观等前沿科技实践,帮助欠发达地区青少年开拓视野。快手还捐建数字教室,累计支持500余所学校,惠及70万儿童。此次研学让孩子们亲身体验科技魅力,激发学习兴趣,为未来发展埋下梦想种子。

  • 快手夏日游音节即将启幕 成都欢乐谷变身“游戏痛园”开启盛夏狂欢

    8月15日至17日,快手将在成都欢乐谷举办"夏日游音节"活动。活动将打造全国首个"游戏痛园"实景地图,设置15个沉浸式主题展区和30多项互动任务,还原《和平精英》《王者荣耀》等15款国民游戏场景。140位特邀嘉宾将助阵,包括明星主播、电竞选手等。日间可体验游戏实景互动,夜间将举办三大电竞赛事和音乐演出。游客通过集卡、闯关等活动可解锁限定周边。活动融合虚拟游戏与实体乐园,打造5100平方米的实景任务地图,带来跨次元的沉浸式体验。

  • 许梦圆叶皓然强强联手,快手星芒短剧《无法结婚的我们》诠释爱情

    快手短剧《无法结婚的我们》上线,讲述29岁恐婚女周青山与未婚夫裴树进行30天"结婚冷静期"实验的故事。两人在模拟婚姻生活中暴露出婆媳矛盾、生育观念等分歧,最终分手。随后新人徐沧闯入周青山生活,提出突破传统的"续约制婚姻"理念,让周青山看清婚姻的另一种可能。该剧由许梦圆、叶皓然主演,通过24集3分钟短剧形式,探讨当代都市男女的婚恋观差异,展现爱情与婚姻的真实价值。剧中双男主形成鲜明对比,引发观众对婚姻本质的思考。

  • 贾樟柯推介“快手聚光短剧计划”,探索精品微短剧创作的更多可能

    首届中国微短剧盛典在山东烟台举办,聚焦"微短剧赋能千行百业"主题,汇聚行业智慧。平遥国际电影展创始人贾樟柯现场推介第九届影展新增的"快手聚光短剧计划",该计划分为"快手磁力引擎短剧单元"和"快手星芒短剧单元",分别征集2-3分钟单集短剧和25-40集精品短剧项目,旨在搭建短剧创作交流平台,探索精品短剧可能性。计划设置多项奖项及扶持政策,获奖作品将获得制作发行支持和平台资源推广,并有机会在平遥影展期间进行产业试映。快手持续推动微短剧品质化发展,通过"短剧+"模式促进产业融合。

  • 快手启动2026秋招:发力AI、超200个职位类型,部分年薪可超200万元

    快手于2025年7月30日启动2026届秋季校园招聘,面向全球2026届毕业生开放200多个职位,覆盖算法、工程、产品等11大类岗位,工作地点包括北京、上海等全国多个城市。本次招聘重点发力AI方向,开放多模态、推荐系统等底层技术研发岗位,并增设AI产品经理、AIGC设计师等创新岗位。针对技术人才推出"快Star-X"特别计划,提供不设上限的年薪和核心资源,已有候选人获得超200万年薪offer。非技术类岗位同样开放,强调不设专业门槛。快手表示期待年轻人加入,共同探索AI时代新可能。

  • 全球用户超4500万!可灵AI发布灵动画布等全新功能

    在2025世界人工智能大会(WAIC)的生成式AI应用元年”论坛上,快手可灵AI发布了全新创意工作台灵动画布”并对其多图参考”功能进行了重磅升级。 灵动画布”集无限可视化空间、智能创作辅助与多人实时协作为一体,为创作者提供一站式创作体验。 升级后的多图参考”功能在角色/主体/场景一致性、动态质量和画风保持方面显著提升,并新增了局部内容或特定区域参考能�