首页 > 业界 > 关键词  > 可灵最新资讯  > 正文

媲美Sora?快手文生视频模型可灵开放测试 更懂物理,最长可生成2分钟视频

2024-06-07 09:20 · 稿源:站长之家

站长之家(ChinaZ.com) 6月7日 消息:昨天,快手公司推出了一款名为「可灵」的全新视频生成大模型,该模型采用了与Sora相似的技术路线,并结合了快手自研的多项技术创新。这款模型不仅能够生成长达2分钟、30fps、1080p分辨率的超长视频,支持多种宽高比,还能模拟物理世界的特性,精准建模复杂运动。

QQ截图20240607094153.jpg

亮点:

1、生成能力强大:

支持长达2分钟的30fps高清视频生成,分辨率高达1080p。

支持多种宽高比,包括竖版视频,非常适合快手的短视频生态。

2、运动和物理模拟:

准确刻画复杂、大幅度的运动,如公路上奔跑的老虎、宇航员在月球上行走等。

能够模拟物理特性,如重力、液体流动和光学反射等,生成的画面更符合真实物理规律。

3、应用场景广泛:

从娱乐到教育,可灵的应用场景广泛。

支持文本转视频、多种控制信息输入、以及丰富的内容控制能力。

「可灵」大模型够准确刻画复杂、大幅度的时空运动,如公路上高速奔跑的老虎,画面连贯,动作协调,甚至奔跑过程中躯干的抖动也得到了细致展现。它还能模拟真实物理世界的特性,比如倒牛奶时的重力规律和液面上升,以及光学上的反射规律。此外,「可灵」还能真实反映与真实物理世界的交互,如小男孩吃汉堡时齿印的变化等。

以下是官方发布的视频案例及提示词:

prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

prompt:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈

一只戴着眼镜的兔子在看报纸

厨师正在切菜

一只蓝色的鹦鹉

技术特点

1、原生视频生成技术:

采用类似Sora的DiT结构,用Transformer代替传统的卷积网络U-Net。

3D VAE网络用于时空同步压缩,提高重建质量和训练性能。

3D Attention机制用于时空建模,提升复杂时空运动的建模能力。

2、高质量数据支持:

构建了完备的标签体系,对训练数据进行精细化筛选和分布调整。

专用的视频描述模型生成精确、详尽的结构化视频描述,提升模型的文本指令响应能力。

3、高效训练策略:

使用分布式训练集群和优化策略提高运算效率。

分阶段训练策略:初期低分辨率阶段侧重数量,后期高分辨率阶段侧重质量,确保模型在各阶段的优化。

实际应用

1、快影APP:

可灵大模型已在快影APP中开启邀测,当前版本支持生成720P视频,竖版视频生成能力即将开放。

2、其他应用:

“AI舞王”:上传全身照,生成人物跟随音乐跳舞的视频。

“AI唱跳”:生成跳舞并唱歌的视频。

未来还将推出图生视频功能。

快手在大模型技术方面动作迅速,与多个高校或科研机构合作发布了多项关键技术,为「可灵」大模型积累了深厚的技术沉淀。现在,快手的文生视频功能已正式亮相,期待其在短视频场景中的应用落地。

对AI视频创作感兴趣的用户,可以在快影APP中体验「可灵」大模型的功能。

体验方法:快影 APP-AI 玩法-AI 视频生成中申请。

官网地址:https://top.aibase.com/tool/kelingdamoxing

举报

  • 相关推荐
  • 可灵AI全系模型上线“视频音效”功能 可同步生成高质量立体声音效

    可灵AI宣布全系列视频模型上线“视频音效”功能,用户在使用可灵AI进行视频创作时,不仅能获得高质量的视频画面,更能体验到与视频精准匹配、富有空间感的立体声音效……

  • CVPR2025:快手可灵四大技术方向布局视频生成及世界模型

    面向用户意图理解,可灵团队提出的Any2Caption按照一种统一的方式理解多模态用户输入信息,进而生成语义丰富的结构化描述,可显著提升视频生成的成功率……

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 快手团综《带你趣香港》定档!跟着快手主播解锁城市寻宝新玩法

    快手户外互动竞技直播团综《带你趣户外》宣布回归,将于7月5日和12日推出《带你趣香港2025》特别企划。节目将带领观众深度探索香港多元魅力,从西贡地质奇观到太平山顶,从九龙寨城公园到启德体育园,通过趣味任务解锁城市独特体验。近年来香港"深度游"渐成趋势,节目创新融合互动竞技与人文探索,让观众在120年叮叮车、昂坪360缆车等特色体验中感受中西文化交融的"港味"文化。观众还可参与快手站内投票活动,为主播助力解锁独家内容。

  • 模型能力卷不过Google、快手,但这家视频生成创企却可能最先赚到钱?

    去年4月,我们曾经在《这个 AI 赛道,一个月内融资4笔,一大半的创始人是华人》选题中观察过 AI 视频赛道,彼时赛道 Top 级玩家还是 Pika、Pixverse、Haiper 等华人创企。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 快手全程直播2025EWC电竞世界杯,点燃夏日电竞激情

    2025年EWC电竞世界杯于7月7日在沙特阿拉伯利雅得开幕,将持续至8月24日。作为全球最大规模的顶级电竞赛事,本届比赛汇聚200多支顶尖俱乐部、2000余名选手,在24个电竞项目中展开角逐,奖金池超7000万美元。快手作为国内头部短视频和直播平台,从7月8日起连续7周全程直播赛事,并派出独家签约主播@小孩曾卓君(曾获《饿狼传说》总冠军)和@村肉Zhen等参赛。平台还组建专业解说天团,覆盖王者荣耀、穿越火线等热门项目,通过多视角解读和丰富互动环节提升观赛体验。此前快手已拿下KPL、和平精英等多项头部赛事版权,并培育出多位优质游戏主播,构建起完整电竞生态闭环。

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • 直播猎杀野猪,快手“赏金猎人”是否太血腥?

    ​当一二线的城里人正沉浸在“苏超”热梗、小米YU7的重磅发布时,快手一项名为#狩猎人赏金大赛 的活动正迎来收官。 “放狗,放狗!动作要快,姿势要帅!” 随着猎人的指令,成群猎狗狂吠着冲向野猪。“单挑王”率先飞身扑咬,却被野猪直接撞飞。群犬轮番攻击,野猪边战边逃。 野猪体型虽大,却架不住猎狗接二连三的冲击,一个踉跄再被撂倒,在哀嚎中被团团围扑。

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。