可灵2.1首尾帧上线生成效果提升235%

2025-08-22 18:47 · 稿源：站长之家用户

8月22日，可灵AI正式推出基于2.1模型的全新首尾帧功能。该功能通过端到端多模态语义推理能力的升级，显著提升首尾帧功能视频生成效果。据评测数据显示，与此前1.6版本相比效果提升235%，在视频转场、视觉冲击力、复杂运镜及创意营销等维度表现尤为突出。

攻克转场难题多场景丝滑衔接

可灵2.1模型首尾帧功能的核心突破之一，是解决AI视频生成中常见的转场难题，如场景衔接生硬“刹车感”强等。测试视频中，一名年轻亚洲女性从堆满书籍与佛像的房间转身，镜头推进至金色装饰逐渐增多的空间……过程中，角色发型（长发自然垂落转为侧梳）、服装(白色长袖衬衫变为无袖上衣)、光线(暖光由散射转为聚焦)均实现无缝衔接，场景切换逻辑清晰连贯。

该案例通过多个首尾帧相接实现连续多个丝滑转场，也验证了模型对艺术风格切换与角色动态衔接的精准把控。

强化视觉冲击效果打造超燃视觉特效

此次可灵2.1首尾帧可实现强烈的视觉冲击效果，助力轻松打造超燃视觉特效。实测视频中展现了极具张力的人物变身过程，人物轮廓在深蓝背景中逐步蜕变为纯火焰形态，火山岩浆流动、星空背景下的烈焰升腾等细节均清晰呈现，节奏与危险紧张的氛围高度匹配，体现出模型对复杂视觉元素的精准控制。

专业级复杂运镜全面提升沉浸感

可灵2.1首尾帧可以支持电影级复杂运镜，通过首尾帧连续衔接，实现镜头轨迹与场景逻辑的高度匹配。例如，在模型连续生成的这两个视频中，镜头先快速向左下摇镜，突出趴在地上爬行的破旧机器人，随后快速左摇，拍摄逃窜机器人与爆炸场景……整个过程镜头调度一气呵成，过程丝滑流畅。

创意十足轻松打造高质感营销素材

全面升级后的首尾帧功能还可快速生成符合品牌调性的创意展示视频，广泛适用于市场营销等领域，显著降低素材制作成本。例如，在这个饮品广告案例中，易拉罐快速从树莓中飞出，周围的树莓如爆炸般散开，果汁向四周飞溅，整个过程丝滑自然，给观众带来身临其境的沉浸式体验。

横评碾压表现超越Midjourney与Seedance

专业评估人员对可灵2.1、可灵1.6、Seedance1.0mini、Midjourney等模型的首尾帧功能进行了客观的效果评测。结果显示，可灵2.1首尾帧在整体效果及多个细分维度上均表现优异，与Seedance1.0mini 对比的整体GSB得分达到2.09，与Midjourney对比的整体GSB得分达到2.30，与可灵1.6对比的整体GSB得分达到3.35。同Midjourney、Seedance1.0mini 进行两两偏好对比显示，可灵2.1首尾帧的胜率分别达到62%、57%。

注:GSB 指标用于衡量群体意见的一致性和正负倾向，GSB 值越大，说明模型优势越大

这一卓越表现得益于可灵2.1在端到端优化的多模态语义推理能力上的进一步提升。模型能够深度整合用户的提示词与首尾帧图片中的丰富视觉语义及动作意图，高效融合多模态数据，精准捕捉并推理画面元素在时空维度上的演变逻辑。无论是不同艺术风格的切换、角色间的丝滑衔接，还是复杂运镜与场景迁移，都能在语义驱动下生成自然流畅且充满想象力的动态画面。

与此同时，可灵2.1引入了自适应扩散引导与方向重定向机制，进一步提升了视频生成的稳定性和专业质感。该机制在扩散生成的每一步对条件分布进行动态引导和纠正，有效修正偏离语义或视觉逻辑的动态路径，确保动作衔接平滑、运动节奏稳定可控。

此外，模型在生成过程中严格保持人物/物体身份一致性、色彩风格与画面基调的连贯统一，显著提升了视频的专业质感。即使面对高动态场景下的挑战（如局部失真、细节破碎、缩放变形及首尾帧视觉跳变等问题），该机制依然表现出强大的错误抑制与纠正能力，确保生成内容的稳定性和可信度。

作为全球领先的AI创意生产力平台，可灵AI已累计完成30次迭代，服务用户突破4500万，累计生成视频超2亿条、图片超4亿张，覆盖广告、影视、游戏等多个行业。此次2.1模型首尾帧的推出，进一步提升了视频生成一致性和稳定性，广泛适用于广告营销、影视、短剧、动画等创意制作场景，进一步巩固了其在AI视频生成领域的领先地位。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

AI日报今日聚焦多项技术突破：可灵AI推出图片转视频功能，腾讯混元SRPO技术提升图像真实感，IBM开源文档处理模型Granite-Docling-258M。Meta发布带屏AI眼镜Ray-Ban，DeepSeek论文登《Nature》封面。OpenAI新增GPT-5思考时长调节功能，抖音上线“AI求真”辟谣工具，通用DeepResearch开源模型性能超越国际知名模型。

AI日报数字人视频生成
既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破，从传统2D感知升级为3D语义感知，赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合，让机器人精准构建三维地图，识别家居属性，实现主动避障与个性化服务。同时，结合低算力混合模型与情感交互功能，机器人可感知用户情绪、提供安全防护，并支持宠物看护等场景拓展，从“工具”升级为有温度的“家庭伙伴”，真正满足复杂家庭需求。

3D感知多模态交互陪伴机器人
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
免费生成10秒高清视频！通义App接入通义万相2.5

在2025云栖大会上，阿里发布通义万相Wan2.5 Preview系列模型，覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步，可生成匹配画面的人声、音效和BGM，时长从5秒提升至10秒，支持24帧/秒的1080P高清输出，降低影视级创作门槛。模型指令遵循能力增强，支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频，每日免费使用15次，支持导出无水印视频。同时，图像生成能力全面升级，可生成中英文字符和图表，支持图像编辑功能，一句话即可完成P图。

通义万相文生视频图生视频
vivo X300系列行业首发4K 60帧电影人像视频：出巨片

9月26日，vivo举办X系列蓝图影像技术沟通会，正式发布X300系列。该系列首发行业首个4K 60帧电影人像视频，支持人像美颜、虚化及冷胶等多种风格，搭载天玑9500旗舰芯片和自研影像芯片V3+，实现画质、美化和流畅度全面升级。新增冷胶、负片风格，支持双焦段4K 120fps慢动作、杜比视界HDR及10bit Log视频，夜景人像通过“电子柔光箱”算法提升光线柔和度30%，搭配闪光灯和烟花人像算法，软硬协同优化拍摄体验。vivo美学算法升级，蔡司自然人像还原原生感，肌肤纹理立体细腻，经典通透人像更真实清透。

vivo X300 4K
荐谁在视频号上，为短剧“买单”？

短剧的风这下是真的吹到了视频号。 “00后帅气多金董事长爱上干保洁40岁离异的我”;“和自己闪婚的黄昏恋老伴，竟然是豪门。”……最近小编一打开手机随便刷一刷视频号，便能邂逅许多爆款“雷人”短剧。前几天，就连金融反腐题材的《K线成长记》都火了，证券时报发的全集转发就突破1万+。它们剧情够爽、反转够快，即便有的剧情夸张、逻辑欠缺，依旧赢得网友

短剧视频号爆款
视频拍照不妥协！佳能R50V 4K 视频 + 2420万像素直出，2025 不用二选一

2025年短视频创作进入专业化时代，佳能R50V作为全新EOS V系列首款机型，以“视频强优化，拍照不妥协”为核心优势。其支持6K超采样4K 30P、4K 60P及全高清120P慢动作，竖屏适配移动端生态，USB直连实现4K 60P直播，并具备2小时持续录制能力。拍照方面搭载2420万像素APS-C传感器，支持15张/秒高速连拍，机身仅323克轻巧便携。R50V兼顾专业视频输出与高质量拍照，满足创作者多场景需求，实现一机双修。
可灵AI亮相釜山国际电影节技术实力获韩媒高度评价

9月20日，可灵AI亮相第30届釜山国际电影节，参与亚洲内容与电影市场论坛，与AWS、Google等全球科技企业探讨AI与影视叙事的融合创新。作为首个登上国际电影节的国产AI视频生成模型，可灵AI凭借卓越技术获韩国主流媒体高度评价，现场演示仅用几张照片即生成生动视频，展现高效低成本的影视制作能力。可灵AI还宣布将参与戛纳电视节、东京国际电影节，并启动全球AI影像创作大赛，推动行业交流与人才孵化。目前其生态已覆盖149个国家地区，服务超4500万创作者，彰显中国AI在影视领域的全球影响力与赋能决心。

可灵AI 釜山国际电影节 AI视频生成

今日大家都在搜的词：

热文

3 天
7天

可灵2.1首尾帧上线生成效果提升235%

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

既能读懂情绪，还能多模态交互！INDEMIND用空间智能重新定义陪伴机器人

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

免费生成10秒高清视频！通义App接入通义万相2.5

vivo X300系列行业首发4K 60帧电影人像视频：出巨片

荐谁在视频号上，为短剧“买单”？

视频拍照不妥协！佳能R50V 4K 视频 + 2420万像素直出，2025 不用二选一

可灵AI亮相釜山国际电影节技术实力获韩媒高度评价

今日大家都在搜的词：

热文

雷军：小米17系列开售仅5天销量破100万台

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

比特币价格突破12.5万美元刷新历史最高纪录

小米回应“小米汽车突然自己开走”：排除车辆质量问题

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

站长商机

可灵2.1首尾帧上线 生成效果提升235%

今日大家都在搜的词：

热文

站长商机

可灵2.1首尾帧上线生成效果提升235%