首页 > 业界 > 关键词  > 快手可灵AI最新资讯  > 正文

可灵1.6模型发布:文本响应度、运动合理性明显提升

2024-12-20 22:46 · 稿源: 快科技

**快手可灵AI推新基座模型 1.6**

日前,快手可灵AI宣布其基座模型迎来升级,推出视频生成模型可灵1.6。

1.6模型显著提升了文本响应度、画面美感和运动合理性。生成的画面更加稳定、生动,更好地响应运动、时序动作和运镜等文字描述。

此外,1.6模型的动态质量得到进一步增强,运动更加自然合理,人物表情也更加真实。画面质量也得到提升,色彩、光影和细节表现均有明显改善,提供标准和高品质模式,图生视频效果也获得了显著提升。

今年9月上线的可灵AI 1.5模型已支持高品质模式,可生成1080P高清视频。新模型的画面构图更为美观,视频清晰度和动态质量都得到大幅提升,特别是运动的合理性得到加强。

自6月发布以来,可灵AI已进行多次迭代和升级,目前拥有超过600万用户,累计生成超6500万个视频和超1.75亿张图片。在2024快手光合创作者大会上,快手高级副总裁盖坤表示,AI正在不断融入快手的业务生态和用户的内容生产环节中。

举报

  • 相关推荐
  • 想让AI成为新引擎,快手不能只靠可灵

    从12月1日开始,快手开启了「可灵全能灵感周」,要连续5天,每天都发布一项新产品。目前,快手已经发布了统一多模态视频大模型可灵视频O1和全能图像模型可灵图片O1,展现了要一站式满足AI视频、图像创作需求的野心。 这种密集的发布,也是快手在向外界进一步展示自身的AI技术积累。而保持AI技术的领先是快手新故事的重要组成部分。从财报来看,快手已经把AI视作为�

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

    本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。

  • 商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT

    商汤科技发布AI办公智能体“小浣熊3.0”,实现三大跃迁:从生成“草稿”到交付“成果”,一键生成高质量PPT;从响应“指令”到理解“任务”,具备长链条思考能力,支持百万级数据处理;从“单点”工具到融入“工作流”,任务跨平台处理,移动端上线,覆盖企业级场景。产品已服务超1500万用户,致力于解决真实场景问题,重新定义AI原生办公模式。

  • AI日报:阿里Qwen3-TTS上线;可灵 AI上线主体库

    本期AI日报汇总了多项AI领域新进展:可灵AI推出“主体库”解决视频角色变脸问题;阿里Qwen3-TTS支持多语言多音色;腾讯混元2.0大模型开启内测;美团开源图像生成模型LongCat-Image;京东云支持千卡训练推动具身智能;英伟达小模型NVARC成本优势显著;微博CEO回应AI手机自主发博功能;微软推出轻量级实时TTS模型VibeVoice。

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 腾讯混元发布全新视频生成模型:14G消费级显卡流畅运行 生成5-10秒高清视频

    今日,腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo 1.5,这是一款基于Diffusion Transformer(DiT)架构、参数为8.3B的轻量级视频生成模型,支持生成5-10秒的高清视频。 该模型已经抢先在元宝”上线,普通用户可以直接体验,可通过两种方式:一是输入文字描述(Prompt),直接实现文生视频”;二是上传图片配合Prompt,轻松将静态图片转化为动态视频。 据介绍,Hunyuan

  • 云南人,如何统治短视频?

    ​当@云南BIGBANG 用夹杂彝腔的韩文说唱炸翻抖音,女团@土NE1身穿千禧服饰在苞米地跳着整齐的韩舞,当@卜拉克Ping克 把沙石矿地变成时尚秀场。 网友们不禁感叹,云南人玩短视频仿佛像喝水一样简单。 2022年“我是云南的”魔性洗脑;2023年“恐龙抗狼”甚至火到国外全球模仿;2024年云南人一句“这是什么地方啊?云南!”让全网一起来唱山歌;2025年,云南BIGBANG横空出世,还有云�

今日大家都在搜的词: