阿里巴巴云宣布其备受期待的视频生成AI模型Wan2.2即将在近期正式发布。作为Wan2.1的升级版本,Wan2.2预计在性能、效率和功能上实现重大突破,继续秉承阿里开源AI的战略,巩固其在全球AI视频生成领域的领先地位。继Wan2.1于2025年2月开源并取得广泛成功后,Wan2.2的推出引发了开发者社区和行业的热烈讨论。
Wan2.2:技术升级,性能再突破
Wan2.1凭借其时空变分自编码器(VAE)和扩散变换器(DiT)架构,已在VBench基准测试中以84.7%的得分超越OpenAI的Sora(84.28%)。据社交媒体讨论,Wan2.2预计进一步优化这些技术,显著提升视频生成速度和质量,尤其是在高分辨率(如1080p)和长视频生成中的表现。 预计新增功能包括:
- 文本到视频(T2V):支持更高分辨率(如1080p和4K)以及更长的视频生成,生成时间进一步缩短。
- 图像到视频(I2V):提升动态场景的流畅性和真实性,支持更复杂的动作和场景转换。
- 视频到音频(V2A):增强从视频内容生成匹配音频的能力,提升多模态创作体验。
- 多语言与风格扩展:支持更多语言的文本效果生成,并新增多样化的艺术风格模板,如赛博朋克、写实动画等。
- 硬件优化:进一步降低硬件需求,T2V-1.3B模型预计在更低显存(如6GB)设备上运行,扩大用户覆盖范围。
Wan2.2的训练数据预计在Wan2.1(15亿视频、100亿图像)的基础上进一步扩充,优化数据筛选以提升生成内容的多样性和真实性。
Wan2.2将继续采用Apache2.0许可证,通过Alibaba Cloud ModelScope和Hugging Face免费提供代码和模型权重,支持学术研究和商业应用。Wan2.1已推出T2V-1.3B、T2V-14B、I2V-14B-720P和I2V-14B-480P四种变体,Wan2.2预计将新增更多模型变体,针对不同硬件和场景进一步优化。
开发者对Wan2.2的开源前景充满期待,认为其将进一步挑战OpenAI Sora等封闭模型的市场主导地位,推动AI视频生成技术的民主化。阿里此举不仅降低了技术门槛,也为全球开发者提供了更多创新空间。