首页 > 传媒 > 关键词  > 可灵AI最新资讯  > 正文

可灵2.1最强首尾帧上线 生成效果提升235%

2025-08-22 18:47 · 稿源: 站长之家用户

8月22日,可灵AI正式推出基于2.1模型的全新首尾帧功能。该功能通过端到端多模态语义推理能力的升级,显著提升首尾帧功能视频生成效果。据评测数据显示,与此前1.6版本相比效果提升235%,在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现尤为突出。

攻克转场难题 多场景丝滑衔接

可灵2.1模型首尾帧功能的核心突破之一,是解决AI视频生成中常见的转场难题,如场景衔接生硬“刹车感”强等。测试视频中,一名年轻亚洲女性从堆满书籍与佛像的房间转身,镜头推进至金色装饰逐渐增多的空间……过程中,角色发型(长发自然垂落转为侧梳)、服装(白色长袖衬衫变为无袖上衣)、光线(暖光由散射转为聚焦)均实现无缝衔接,场景切换逻辑清晰连贯。

该案例通过多个首尾帧相接实现连续多个丝滑转场,也验证了模型对艺术风格切换与角色动态衔接的精准把控。

强化视觉冲击效果 打造超燃视觉特效

此次可灵2.1首尾帧可实现强烈的视觉冲击效果,助力轻松打造超燃视觉特效。实测视频中展现了极具张力的人物变身过程,人物轮廓在深蓝背景中逐步蜕变为纯火焰形态,火山岩浆流动、星空背景下的烈焰升腾等细节均清晰呈现,节奏与危险紧张的氛围高度匹配,体现出模型对复杂视觉元素的精准控制。

专业级复杂运镜 全面提升沉浸感

可灵2.1首尾帧可以支持电影级复杂运镜,通过首尾帧连续衔接,实现镜头轨迹与场景逻辑的高度匹配。例如,在模型连续生成的这两个视频中,镜头先快速向左下摇镜,突出趴在地上爬行的破旧机器人,随后快速左摇,拍摄逃窜机器人与爆炸场景……整个过程镜头调度一气呵成,过程丝滑流畅。

创意十足 轻松打造高质感营销素材

全面升级后的首尾帧功能还可快速生成符合品牌调性的创意展示视频,广泛适用于市场营销等领域,显著降低素材制作成本。例如,在这个饮品广告案例中,易拉罐快速从树莓中飞出,周围的树莓如爆炸般散开,果汁向四周飞溅,整个过程丝滑自然,给观众带来身临其境的沉浸式体验。

横评碾压 表现超越MidjourneySeedance

专业评估人员对可灵2.1、可灵1.6、Seedance1.0mini、Midjourney等模型的首尾帧功能进行了客观的效果评测。结果显示,可灵2.1首尾帧在整体效果及多个细分维度上均表现优异,与Seedance1.0mini 对比的整体GSB得分达到2.09,与Midjourney对比的整体GSB得分达到2.30,与可灵1.6对比的整体GSB得分达到3.35。同Midjourney、Seedance1.0mini 进行两两偏好对比显示,可灵2.1首尾帧的胜率分别达到62%、57%。

注:GSB 指标用于衡量群体意见的一致性和正负倾向,GSB 值越大,说明模型优势越大

这一卓越表现得益于可灵2.1在端到端优化的多模态语义推理能力上的进一步提升。模型能够深度整合用户的提示词与首尾帧图片中的丰富视觉语义及动作意图,高效融合多模态数据,精准捕捉并推理画面元素在时空维度上的演变逻辑。无论是不同艺术风格的切换、角色间的丝滑衔接,还是复杂运镜与场景迁移,都能在语义驱动下生成自然流畅且充满想象力的动态画面。

与此同时,可灵2.1引入了自适应扩散引导与方向重定向机制,进一步提升了视频生成的稳定性和专业质感。该机制在扩散生成的每一步对条件分布进行动态引导和纠正,有效修正偏离语义或视觉逻辑的动态路径,确保动作衔接平滑、运动节奏稳定可控。

此外,模型在生成过程中严格保持人物/物体身份一致性、色彩风格与画面基调的连贯统一,显著提升了视频的专业质感。即使面对高动态场景下的挑战(如局部失真、细节破碎、缩放变形及首尾帧视觉跳变等问题),该机制依然表现出强大的错误抑制与纠正能力,确保生成内容的稳定性和可信度。

作为全球领先的AI创意生产力平台,可灵AI已累计完成30次迭代,服务用户突破4500万,累计生成视频超2亿条、图片超4亿张,覆盖广告、影视、游戏等多个行业。此次2.1模型首尾帧的推出,进一步提升了视频生成一致性和稳定性,广泛适用于广告营销、影视、短剧、动画等创意制作场景,进一步巩固了其在AI视频生成领域的领先地位。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • 国产AI视频平台最全比价:万兴天幕2.0超高性价比,可灵PixVerse瞄准高价高品质

    2025年第三季度,中国AI视频生成赛道迎来定价体系的分水岭时刻。国际巨头谷歌Veo以每秒0.75美元(约5.4元人民币)的"好莱坞级定价"筑高技术壁垒,而国内市场呈现双轨制格局:万兴科技旗下万兴天幕2.0以"0.25元/条"的颠覆性价格突入大众市场,可灵与PixVerse则以1.56-1.79元/条的价格坚守品质溢价路线。国产玩家根据技术禀赋与市场定位分化出两条路径:普惠下沉派通过错峰无限权益降低算力成本;专业精耕派依托影视级运镜模板支撑高价策略。当技术参数差距收窄至毫厘之间,这场围绕"毛票"与"元角"的定价博弈,正在重划内容生产工具的普及边界。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 《新世界加载中》收官,可灵AI拓宽影像边界

    “AI是人类文明进步的产物,也是我们跨越未来的重要助力。”通用人工智能时代,著名人工智能研究学家肖博士,在某项目出现重大突破后,向全世界发布了含有上述内容的AGI时代宣言。 “您觉得在大势所趋的当下,这个世界还有人工智能尚未普及的地区吗?”面对记者的这一疑问,肖博士开了一个玩笑,“也许,银河系之外”。 可在他脑海中出现的画面,却是破败的村庄�

今日大家都在搜的词: