首页 > 热点 > 关键词  > 可灵AI最新资讯  > 正文

CVPR2025:快手可灵四大技术方向布局视频生成及世界模型

2025-06-25 08:56 · 稿源:站长之家用户

近日,全球视觉AI领域的年度盛会CVPR2025 在美国田纳西州纳什维尔召开,快手可灵AI事业部万鹏飞博士在备受瞩目的“From Video Generation to World Model” Tutorial(《从视频生成到世界模型》专题讲座)上,发表了题为An Introduction to Kling and Our Research towards More Powerful Video Genaration Models的报告,从模型架构与生成算法、互动与可控能力、效果评估与对齐机制、多模态理解和推理四大技术方向介绍了可灵AI团队在视频生成及世界模型领域的比较新进展与思考。

先进的模型结构与生成算法(Advanced Model Architectures and Generation Algorithms)

Scaling laws在大语言模型中已经有众多研究工作和实际应用,但视频生成领域缺乏准确好用的scaling laws公式。可灵团队通过严谨的实验与分析,初次建立了超参数、模型规模与计算预算之间的比较准确数学关系。这个成果让我们可以更科学地设置模型参数规模和关键参数,从而更充分的发挥算力和数据资源的价值,达成更优的模型效果。参考论文:Towards Precise Scaling Laws For Video Diffusion Transformers

可灵团队还推出了面向扩散模型的混合专家(MoE)架构DiffMoE。基于全局范围的token选择机制和配套的推理策略,DiffMoE可根据扩散模型在不同生成阶段的异构特性,更合理地分配计算资源。在图像生成中,仅需激活 1 倍的参数量,便能达到 3 倍规模的密集模型的生成性能。参考论文:DiffMoE: Dynamic Token Selection For Scalable Diffusion Transformers

强大的交互与可控能力(Powerful Interaction and Control Capacities)

可灵团队提出了一个多任务视频生成模型框架FullDiT,将所有时空条件作为上下文无缝融合到一个统一的Diffusion Transformer架构中。FullDiT不需要针对不同任务更改模型结构,降低了各种不同控制条件之间的冲突,且展示出了优秀的可扩展性甚至涌现能力。参考论文:FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

在交互式视频生成方向,可灵团队提出了GameFactory框架,只需少量带有动作控制信息的视频训练数据,即可支持可泛化到不同游戏场景的连续(如鼠标)和离散(如键盘)的动作控制能力。参考论文:GameFactory: Creating New Games with Generative Interactive Videos

准确的评估和对齐机制(Accurate Evaluation and Alignment Mechanisms)

可灵团队构建了一套基于人类反馈的强化学习(RLHF)的视频生成框架,包括多维偏好数据构造、基于VLM的Reward模型,以及多种对齐算法。该框架是最早的系统性阐述如何应用RLHF到视频生成任务的工作之一。参考论文:Improving Video Generation with Human Feedback

此外,面向图像和视频生成领域主流的流匹配(Flow Matching)生成算法,团队通过ODE-to-SDE(常微分方程转换到对应的随机微分方程)等方案,有效解决了流匹配缺乏随机性以及多步生成计算效率低的问题,提出了头个将GRPO引入流匹配模型的在线强化学习(RL)算法Flow-GRPO,并证明了其在图像生成任务中的有效性。参考论文:Flow-GRPO: Training Flow Matching Models via Online RL

多模态感知与推理(Multimodal Perception and Reasoning)

视频captioner(视频内容的文本描述模型)对最终的视频生成效果非常关键,但行业中缺乏好的效果评估的方法。可灵团队提出一个视频captioner评估框架VideoCapBench,具备稳定性和可靠性更高、以及与最终视频生成效果相关性强的优点。参考论文: VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

面向用户意图理解,可灵团队提出的Any2Caption按照一种统一的方式理解多模态用户输入信息,进而生成语义丰富的结构化描述,可显著提升视频生成的成功率。参考论文:Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation

除tutorial报告外,本届CVPR上可灵共有 7 篇论文入选,涵盖视频模型scaling law、视频数据集、可控生成、人像生成、高清生成、4D生成等多个方向。

举报

  • 相关推荐
  • 快手全程直播2025EWC电竞世界杯,点燃夏日电竞激情

    2025年EWC电竞世界杯于7月7日在沙特阿拉伯利雅得开幕,将持续至8月24日。作为全球最大规模的顶级电竞赛事,本届比赛汇聚200多支顶尖俱乐部、2000余名选手,在24个电竞项目中展开角逐,奖金池超7000万美元。快手作为国内头部短视频和直播平台,从7月8日起连续7周全程直播赛事,并派出独家签约主播@小孩曾卓君(曾获《饿狼传说》总冠军)和@村肉Zhen等参赛。平台还组建专业解说天团,覆盖王者荣耀、穿越火线等热门项目,通过多视角解读和丰富互动环节提升观赛体验。此前快手已拿下KPL、和平精英等多项头部赛事版权,并培育出多位优质游戏主播,构建起完整电竞生态闭环。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 模型能力卷不过Google、快手,但这家视频生成创企却可能最先赚到钱?

    去年4月,我们曾经在《这个 AI 赛道,一个月内融资4笔,一大半的创始人是华人》选题中观察过 AI 视频赛道,彼时赛道 Top 级玩家还是 Pika、Pixverse、Haiper 等华人创企。

  • 2025最好的AI工具是什么 2025全球最佳AI工具终极指南

    文章探讨了当前AI工具爆炸式发展的现状,指出不存在适用于所有场景的"最佳AI工具",而是要根据个人需求选择最适合的组合。作者推荐使用AIbase平台(https://app.aibase.cn/),这是一个AI工具导航和搜索引擎,收录了全球数千款主流和新兴AI工具,涵盖写作、绘画、视频处理、办公自动化等多个领域。平台提供详细分类、真实用户评价和实时更新,能帮助用户快速找到适�

  • 三星多款电竞显示器亮相BW 2025,技术矩阵与生态协同共拓游戏体验新边界

    7月11-13日,Bilibili World 2025在上海举办,三星携玄龙骑士系列电竞显示器参展。作为全球显示器销量冠军,三星展示了500Hz高刷OLED显示器G60SF(G60SF)和32英寸4K QD-OLED显示器G81SF(G81SF),通过多梯次分辨率、全域刷新率体系等技术突破,重新定义高端OLED显示设备性能边界。其中G60SF以0.03ms GTG响应时间和AMD FreeSync Premium Pro认证,在《三角洲行动》等游戏中实现无延迟操作;G81SF则凭借1000nit峰值亮度和99% DCI-P3色域覆盖,在开放世界游戏中呈现逼真光影效果。此外,37英寸G75F显示器以180Hz刷新率配合人体工学支架,为玩家提供全方位电竞体验。三星通过OLED防眩光、动态冷却系统等技术创新,构建了从专业竞技到沉浸娱乐的完整显示生态闭环。

  • Yandex Market 亮相杭州2025全球跨交会

    俄罗斯电商平台Yandex Market在杭州设立中国区首个商家服务中心,与余杭区商务局正式签约。该平台拥有超1亿月活用户,2025年Q1跨境GMV同比激增630%,计划在中国招募5万卖家。杭州作为国内电商之都,拥有成熟的跨境电商生态和大量优质卖家资源。Yandex Market将于8月8日在杭州举办华东首场官方卖家峰会,邀请俄罗斯总部嘉宾出席,助力华东卖家开拓俄罗斯市场。此举标志着华东卖家与俄罗斯市场的距离进一步拉近。

  • AGON爱攻闪耀BW2025,竞化之旅点燃夏日破次元狂欢

    7月11-13日,Bilibili World 2025在上海国家会展中心举办。AGON爱攻以"竞化之旅"为主题,携多款电竞显示器亮相,包括与CS联名的CS24A定制显示器、610Hz超高刷新率的AG246FK6等旗舰产品。现场设置三大互动区:关注送礼、战姬合影和创意打卡,吸引大量玩家参与。同时联合英特尔等合作伙伴举办电竞赛事,为玩家带来沉浸式电竞体验。AGON爱攻通过前沿产品展示、深度互动体验和丰厚福利,成功展现了品牌对极致性能和电竞文化的追求。

  • 2025H1家电业两极分化:强者更强

    2025年上半年中国家电市场呈现稳健增长态势,头部企业优势持续扩大。数据显示,海尔、美的等头部品牌线上线下增幅均超行业水平,其中线上增长36%、线下12%。细分领域表现突出:冰箱市场线上增长22%,海尔、美的、容声占据前三;洗衣机线上增长显著,海尔、小天鹅、美的领跑;空调市场受高温天气推动,线上增幅达50%,海尔、美的增速均超60%。厨电市场呈现"高端化与大众化并行"趋势,整体增长强劲。行业马太效应明显,头部企业凭借技术、品牌优势持续领跑,而缺乏核心竞争力的企业面临更大压力。这一分化趋势或将重塑行业格局,推动中国家电产业向创新强国跨越。

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • 2025国际地下水会议召开 安吉尔破解矿物质离子浓度检测痛点

    7月11-13日,2025国际地下水会议在成都召开,聚焦重大工程水环境效应、地下水与生命健康等议题。安吉尔集团副总裁赵凯在会上分享了其创新技术——精准离子传感器(AIMS),该技术通过智能电极系统实现高精度实时监测,解决了传统矿物质检测设备精度低、成本高等痛点,获日内瓦国际发明展金奖。AIMS技术将推动行业从经验操作向数据管理转型,助力全球饮用水安全。安吉尔已参与20项国家行业标准制定,获超1000项专利,彰显中国企业在净水科技领域的全球竞争力。