首页 > 业界 > 关键词  > 可灵最新资讯  > 正文

媲美Sora?快手文生视频模型可灵开放测试 更懂物理,最长可生成2分钟视频

2024-06-07 09:20 · 稿源:站长之家

站长之家(ChinaZ.com) 6月7日 消息:昨天,快手公司推出了一款名为「可灵」的全新视频生成大模型,该模型采用了与Sora相似的技术路线,并结合了快手自研的多项技术创新。这款模型不仅能够生成长达2分钟、30fps、1080p分辨率的超长视频,支持多种宽高比,还能模拟物理世界的特性,精准建模复杂运动。

QQ截图20240607094153.jpg

亮点:

1、生成能力强大:

支持长达2分钟的30fps高清视频生成,分辨率高达1080p。

支持多种宽高比,包括竖版视频,非常适合快手的短视频生态。

2、运动和物理模拟:

准确刻画复杂、大幅度的运动,如公路上奔跑的老虎、宇航员在月球上行走等。

能够模拟物理特性,如重力、液体流动和光学反射等,生成的画面更符合真实物理规律。

3、应用场景广泛:

从娱乐到教育,可灵的应用场景广泛。

支持文本转视频、多种控制信息输入、以及丰富的内容控制能力。

「可灵」大模型够准确刻画复杂、大幅度的时空运动,如公路上高速奔跑的老虎,画面连贯,动作协调,甚至奔跑过程中躯干的抖动也得到了细致展现。它还能模拟真实物理世界的特性,比如倒牛奶时的重力规律和液面上升,以及光学上的反射规律。此外,「可灵」还能真实反映与真实物理世界的交互,如小男孩吃汉堡时齿印的变化等。

以下是官方发布的视频案例及提示词:

prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

prompt:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈

一只戴着眼镜的兔子在看报纸

厨师正在切菜

一只蓝色的鹦鹉

技术特点

1、原生视频生成技术:

采用类似Sora的DiT结构,用Transformer代替传统的卷积网络U-Net。

3D VAE网络用于时空同步压缩,提高重建质量和训练性能。

3D Attention机制用于时空建模,提升复杂时空运动的建模能力。

2、高质量数据支持:

构建了完备的标签体系,对训练数据进行精细化筛选和分布调整。

专用的视频描述模型生成精确、详尽的结构化视频描述,提升模型的文本指令响应能力。

3、高效训练策略:

使用分布式训练集群和优化策略提高运算效率。

分阶段训练策略:初期低分辨率阶段侧重数量,后期高分辨率阶段侧重质量,确保模型在各阶段的优化。

实际应用

1、快影APP:

可灵大模型已在快影APP中开启邀测,当前版本支持生成720P视频,竖版视频生成能力即将开放。

2、其他应用:

“AI舞王”:上传全身照,生成人物跟随音乐跳舞的视频。

“AI唱跳”:生成跳舞并唱歌的视频。

未来还将推出图生视频功能。

快手在大模型技术方面动作迅速,与多个高校或科研机构合作发布了多项关键技术,为「可灵」大模型积累了深厚的技术沉淀。现在,快手的文生视频功能已正式亮相,期待其在短视频场景中的应用落地。

对AI视频创作感兴趣的用户,可以在快影APP中体验「可灵」大模型的功能。

体验方法:快影 APP-AI 玩法-AI 视频生成中申请。

官网地址:https://top.aibase.com/tool/kelingdamoxing

举报

  • 相关推荐
  • 快手正式成立可灵AI事业部 可灵AI半年收入破亿

    快科技4月30日消息,快手宣布正式成立可灵AI事业部,负责可灵、可图等系列大模型业务。根据快手的组织架构调整公告,可灵AI事业部为公司一级部门,下设成立可灵AI产品部、运营部和技术部。据悉,快手高级副总裁盖坤将担任可灵AI事业部负责人,继续兼任社区科学线负责人,向快手科技创始人兼CEO程一笑汇报。2023年,快手启动AI战略,研发多模态大模型。而除了视频大模型可灵,快手还发布过1750亿参数规模的通用大语言模型快意”和文生图大模型可图”。在2025年3月25日的快手财报电话会上,快手CEO程一笑称:目前可灵AI图生视频功能的综合效

  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • 可灵AI开启视频生成2.0时代!全球用户数已突破2200万

    4 月 15 日,快手可灵AI在北京中关村国际创新中心举行“灵感成真”2. 0 模型发布会,宣布基座模型再次升级,面向全球正式发布可灵2. 0 视频生成模型及可图2. 0 图像生成模型。

  • 马斯克炫酷变身毒液!实测通义Wan2.1首尾帧视频模型,还能“拼接”经典梗图

    在GitHub狂揽1w+星标的通义万相Wan2.1,又双叒上新了!最新打开方式是酱婶儿的:给出开始(首帧)和结束(尾帧)两张图片,Wan2.1便能分分钟生成一段丝滑的5s、720p视频。根据前后视角的不同,还能自动调整镜头角度,缓慢变成高空俯拍,并同时保证人物光影正确:原来这是阿里通义万相Wan2.1最新开源的首尾帧视频模型,基于Wan2.1文生视频14B大模型,为创作者们提供更高效、更灵活的

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。

  • 可灵2.0大师版首发爆火!排队半小时实测,视频编辑能力再升级

    “可灵持续领先!”4月15日下午,快手宣布可灵AI全系模型进入2.0时代。自从上一次可灵1.6更新已过去近3个月,这次基座模型升级,快手高级副总裁、社区科学线负责人盖坤在发布会上自信表示:“可图2.0现在是行业领先的图像模型……可灵2.0,特别在图生视频上持续全球大幅领先!”现场响起了一阵阵欢呼声和掌声。“AI新榜”现场拍摄升级后,可灵2.0视频生成模型(大师版)具

  • 字节快手迎来关键对决

    快手发布可灵AI2.0视频生成模型和可图2.0图像生成模型,实现从"能生成"到"精准生成"的跨越。字节跳动同期推出Seedream3.0文生图模型,综合性能接近GPT-4o。两大短视频平台在AI视频赛道展开激烈竞争:快手可灵AI全球用户突破2200万,3月收入超1亿元;字节即梦AI月活增速达173.57%,位居全球第五。当前AI视频生成领域仍处技术突破期,尚未出现标杆产品。专家指出,该赛道面临算力消耗大、商业模式不清晰等挑战,但未来可能颠覆社交、游戏、VR/AR等多个领域。快手侧重商业化应用,已与小米、亚马逊云等建立合作;字节则将即梦AI视为AGI战略核心,组建AGI长期研究团队探索多模态创新。这场竞争本质是双方在AI时代复制短视频成功模式的尝试。

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成