首页 > AI头条  > 正文

阿里巴巴开源Wan2.1-FLF2V-14B,首尾帧生成720p高清视频新突破

2025-04-18 08:46 · 来源: AIbase基地

阿里巴巴近日宣布,其最新首尾帧生成视频模型Wan2.1-FLF2V-14B正式开源,支持生成5秒720p高清视频。这一模型以其创新的首尾帧控制技术引发广泛关注,为AI视频生成领域带来全新可能性。据AIbase了解,该模型已于2025年2月在GitHub和Hugging Face平台上线,供全球开发者、研究者和商业机构免费使用,标志着阿里巴巴在开源AI生态建设中的又一重要里程碑。

image.png

核心功能:首尾帧驱动,生成流畅高清视频

Wan2.1-FLF2V-14B以首帧和尾帧作为控制条件,仅需用户提供两张图像,模型即可自动生成一段5秒、720p分辨率的视频。AIbase观察到,生成视频在运动流畅度和首尾帧过渡上表现优异,画面细节高度还原参考图像,整体内容一致性显著提升。相比传统视频生成模型,该模型通过精准的条件控制,解决了长序列视频生成中常见的画面抖动与内容漂移问题,为高质量视频创作提供了高效解决方案。

技术亮点:CLIP与DiT融合增强生成稳定性

据AIbase分析,Wan2.1-FLF2V-14B采用先进的首尾帧条件控制技术,核心在于以下创新:  

CLIP语义特征提取:通过CLIP模型提取首尾帧的语义信息,确保生成视频在视觉内容上与输入图像高度一致。  

交叉注意力机制:将首尾帧特征注入到Diffusion Transformer(DiT)的生成过程,增强画面稳定性和时间序列的连贯性。  

数据驱动训练:模型基于1.5亿视频和10亿图像的庞大数据集进行训练,支持生成符合真实物理规律的动态内容。  

这些技术结合使Wan2.1-FLF2V-14B在生成复杂运动场景时表现出色,尤其适合需要高保真过渡的创意应用场景。

广泛应用:赋能内容创作与研究

Wan2.1-FLF2V-14B的开源发布为多个领域带来了广阔的应用前景。AIbase梳理了其主要应用场景:  

影视与广告:快速生成高质量过渡视频,降低后期制作成本。  

游戏开发:为游戏场景生成动态过场动画,提升开发效率。  

教育与科研:支持研究人员探索视频生成技术,开发新型AI应用。  

个性化创作:普通用户可通过简单输入生成个性化短视频,丰富社交媒体内容。

值得一提的是,模型支持中文提示词生成,尤其在处理中文场景时效果更佳,展现了其对多语言环境的适配能力。

上手门槛:适配消费级硬件

Wan2.1-FLF2V-14B在硬件需求上展现了较高的普适性。AIbase了解到,尽管其14亿参数的规模较为庞大,但通过优化,模型可在配备RTX4090等消费级GPU的设备上运行,显存需求低至8.19GB。生成一段5秒480p视频仅需约4分钟,而720p视频的生成时间也保持在合理范围内。此外,模型提供详细的部署指南,用户可通过以下命令快速启动:  

python

python generate.py --task flf2v-14B --size1280*720--ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "A smooth transition from a sunny beach to a starry night"

开源社区还提供了Gradio-based web UI,进一步降低了非技术用户的上手难度。

社区反响与未来展望

自发布以来,Wan2.1-FLF2V-14B在开源社区引发热烈反响。开发者对其生成质量、硬件友好性及开源策略给予高度评价。AIbase注意到,社区已开始围绕模型展开二次开发,探索更复杂的视频编辑功能,如动态字幕生成与多语言配音。未来,阿里巴巴计划进一步优化模型,支持更高分辨率(如8K)与更长时长的视频生成,同时扩展其在视频到音频(V2A)等领域的应用。

项目地址:https://github.com/Wan-Video/Wan2.1

  • 相关推荐
  • BW2025技嘉AORUS战力全开,次元突破!硬核电竞引爆文化狂潮

    2025年7月11-13日,技嘉AORUS在BW2025展会打造了一场二次元文化盛宴。40万观众见证了科技与潮流的完美融合:RTX50系列显卡、Z890主板等旗舰硬件带来极致游戏体验;国风痛车、虚拟偶像等跨界元素展现次元破壁魅力。展会设置赛博狂潮、国风雕妹等主题区,玩家可体验《半衰期》《鸣潮》等游戏,参与电竞赛事和偶像互动。技嘉通过硬核科技与二次元美学的碰撞,重新定义了年轻一代的文化版图,展现硬件行业无限可能。

  • 荣耀Magic V Flip2下周预热 2025年电池最大小折叠

    日前,数码博主定焦数码”透露,荣耀小折叠预计下周将开启预热,形态为方形小折叠,外观可参考三星。 结合品牌命名规则,新机将是荣耀Magic V Flip2,暂定8月发布。 另据数码博主数码闲聊站”爆料,荣耀Magic V Flip2将是今年电池最大的小折叠,电池最高容量为5500mAh,最高支持80W快充。 新机形态没有太大变化,采用6.8英寸LTPO主屏,副屏为4英寸LTPO高刷屏。

  • 腾讯视频上线“超高清内容”专区:4K/60帧 支持HDR Vivid

    近日,腾讯视频推出超高清内容”专区,集纳平台400余部超高清内容,涵盖电视剧、电影、纪录片、综艺、动画片、微短剧等品类,在各端进行重点推荐。 腾讯视频超高清方案命名为臻彩”,这是腾讯视频超高清的代表性技术。 2025年1月,腾讯视频自研超高清视听品牌臻彩”的高阶版本臻彩MAX”正式推出,主打极致画质与沉浸式观影体验。

  • 尾号“8个7”手机号拍出320万元 溢价率高达146%

    今日,阿里资产拍卖平台上一场特殊的拍卖引发广泛关注——一个尾号为“8个7”的移动手机号码15177777777以320万元高价成交。该号码自开拍起便备受瞩目,最终吸引了11名竞买人参与角逐,从130万元起拍价一路攀升至成交价,溢价率高达146%。 据平台信息显示,截至2025年6月7日,该号码无欠费记录,账户余额约30.6元。根据通信行业号码分级规则,此类尾号连续重复的号码被认�

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 2025全球B2B电商平台行业调查报告‌

    报告分析了全球B2B电商平台的现状与发展趋势。主要内容包括:1)B2B平台打破地域限制,实现全球商品交易和信息交流;2)主要功能涵盖信息服务、交易服务和增值服务;3)运营模式分为信息服务、交易服务和综合服务三类;4)以阿里巴巴国际站、TradeKey等平台为例,分析其商业模式;5)未来趋势包括技术驱动变革、跨境交易兴起、供应链整合优化等。报告指出B2B平台正成为企业拓展国际市场的重要桥梁,建议企业充分利用平台资源提升竞争力,同时呼吁加强行业监管。

  • 中考720分小伙高二转职高学烹饪 自贡18岁小伙获四川烹饪专业第一

    ​近日,一名来自四川自贡的18岁少年龚晟引发社会关注。他曾在中考中以720分的优异成绩考入当地知名中学,却在高二时毅然选择转入职业高中,专攻烹饪专业。今年,在四川省普通高校对口招生考试中,龚晟以总分648分的成绩位列全省烹饪专业第一,用实力证明了自己的选择。 据龚晟的老师介绍,他在校期间始终保持着对烹饪的浓厚兴趣与专注,不仅在理论课程中表现出�

  • 学大教育轻装上阵显成效2025上半年净利润预增41.14%-60.02%,“个性化+多元化”双轮驱动高增长

    学大教育2025年上半年业绩表现亮眼,预计归母净利润2.28-2.59亿元,同比增长41.14%-60.02%。公司通过个性化教育核心优势和多元化业务布局实现持续增长,已在全国布局300余所学习中心和30余所全日制培训基地。在职业教育、文化阅读、医教融合等新领域积极拓展,同时完成23.5亿元债务清偿优化财务结构。自主研发的"星图"大模型获监管部门备案,AI技术赋能教育创新。多家券商看好其发展前景,预计2025-2027年营收复合增长率18%-24%,维持"买入"评级。公司顺应"教育强国"战略,通过科技手段推动个性化教育发展,在行业转型中展现强劲竞争力。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 华为MatePad Pro 12.2开启预约 预计7月24日正式发布

    华为MatePad Pro 12.2英寸平板7月18日开启预约,将于7月24日正式发布。该产品提供普通版和柔光版两种版本,12GB+256GB/512GB两种存储组合,曜黑、宣白、飞天青三款配色。采用全新PaperMatte显示技术,基于Tandem OLED面板打造,功耗降低30%,支持144Hz高刷、2000尼特峰值亮度,获得德国莱茵TUV与SGS护眼认证。内置10100mAh电池,支持100W快充。后置5000万主摄+800万超广角,前置800万像素。支持Wi-Fi7、蓝牙5.2等连接技术,国行版将搭载HarmonyOS5系统。

今日大家都在搜的词: