首页 > AI头条  > 正文

阿里开源版 Sora 登顶 Hugging Face 榜首!Wan2.1 将 DeepSeek-R1 甩在身后

2025-03-04 16:25 · 来源: AIbase基地

阿里的开源模型向来备受瞩目。在去年 6 月发布的 Qwen 系列于开发者社区中拥有良好的口碑,其中 72B、110B 模型曾多次在 Hugging Face 的开源模型榜单上登顶。而在去年 12 月发布的 DeepSeek-V3 又在当月超越了 Qwen 系列。

截屏2025-03-04 16.05.30.jpg

据开源社区 Hugging Face 的最新榜单显示,刚刚开源一周时间的阿里万相大模型成功登顶模型热榜与模型空间榜两大榜单,将 DeepSeek-R1 甩在身后。目前万相 2.1(Wan2.1)在 Hugging Face 以及魔搭社区的总下载量已然超过百万。此次阿里将 14B 和 1.3B 这两个参数规格进行了开源,并且同时支持文生视频和图生视频任务。

截屏2025-03-04 16.00.26.png

Wan 2.1 简介

Wan 2.1 是阿里巴巴集团通义实验室开发的一套全面且开源的视频基础模型,旨在突破视频生成的技术边界。它基于主流扩散 Transformer 结构构建,通过一系列创新技术,如新颖的时空变分自编码器(VAE)、可扩展的预训练策略、大规模数据构建和自动化评估指标,提升了模型的生成能力、性能和通用性。

该模型包含多个不同参数的版本,如 T2V-1.3B 和 T2V-14B(文本到视频模型)、I2V-14B-720P 和 I2V-14B-480P(图像到视频模型) ,以满足不同用户和应用场景的需求。

GlAdnyjXcAAhXyc.jpeg

Wan 2.1 功能亮点

  • 卓越性能超越同行:在多项基准测试中,Wan 2.1 持续超越现有的开源模型和顶尖商业解决方案,在生成视频的质量、细节和真实感等方面达到业界领先水平。例如在 VBench 排行榜中,以总分 86.22% 的成绩登顶,击败 Sora、HunyuanVideo 等众多知名模型
  • 支持消费级 GPU 运行:T2V-1.3B 版本对硬件要求友好,仅需 8.19GB VRAM,就能在如 RTX 4090 等消费级 GPU 上运行。在 RTX 4090 上,大约 4 分钟可生成 5 秒 480P 视频,其性能甚至可与部分闭源模型相媲美,降低了使用门槛,方便个人开发者和研究者使用。
  • 多种任务全面覆盖:具备强大的多任务处理能力,涵盖文本到视频(T2V)、图像到视频(I2V)、视频编辑、文本到图像(T2I)以及视频到音频(V2A)等功能。用户既可以根据文本描述生成视频,也能将静态图片转化为动态视频,还能对现有视频进行编辑优化,以及实现文本生成图像和为视频自动匹配音频等操作。
  • 视觉文本生成独特优势:是首个支持在视频中生成中文和英文文本的视频模型,且生成的文本具有丰富的特效,能根据场景和载体进行合理变化,并随载体一同运动。无论是特效字体、海报字体,还是真实场景中的文字,都能精准生成,为视频创作增添丰富元素。
  • 复杂运动精准还原:擅长生成包含复杂运动的逼真视频,能够精准展现如人体的旋转、跳跃、舞蹈动作,以及物体的快速移动、场景转换等。像多人跳 hip-hop 时动作的同步、篮球场上球员投篮动作的流畅呈现、小狗在雪地里奔跑时的自然姿态等复杂运动场景,Wan 2.1 都能出色还原。
  • 物理模拟高度真实:可以准确模拟现实世界的物理规律和物体间的真实交互。在视频生成中,能真实展现物体的碰撞、反弹、切割效果,以及液体流动、物体的光影变化等物理现象。例如,模拟透明玻璃杯倾倒后牛奶流出的动态痕迹、草莓入水时与水的相互作用力等,使生成的视频更加贴近现实。
  • 电影级画质呈现:能够生成具有电影质感的视频,具备丰富的纹理和多样的风格化效果。通过调整参数和设置,可实现不同的视觉风格,如复古风、科幻风、写实风等,为用户带来高质量的视觉体验。像模拟无人机穿梭于摩天大楼间的城市夜景视频,能逼真地呈现出复杂的灯光效果和建筑风格,营造出震撼的视觉氛围。
  • 精准遵循长文本指令:对复杂的长文本指令理解能力强,能严格按照文本描述生成视频,确保细节完整。无论是多主体的运动场景,还是复杂的环境构建、氛围营造等要求,Wan 2.1 都能准确把握。例如,根据 「欢乐派对现场,一群多元种族的年轻人在宽敞明亮的客厅中央尽情舞动……」这样的长文本,能生成符合描述的生动视频,人物形象、动作、场景氛围等都能精准呈现。

截屏2025-03-04 16.14.37.jpg

适用场景

  • 广告制作:广告公司可以利用 Wan 2.1 根据产品特点和宣传需求,快速生成具有吸引力的广告视频。如制作电子产品广告时,通过文本描述产品的功能和特点,结合酷炫的特效和场景,生成能够突出产品优势的宣传视频。
  • 短视频创作:个人创作者在短视频平台上创作内容时,使用 Wan 2.1 将创意文本或图片转化为有趣的视频。比如制作美食短视频,输入 「美味蛋糕的制作过程」等文本,就能生成相应的视频,还能为视频添加合适的音乐和文字特效,提升视频质量和吸引力。
  • 影视制作辅助:影视制作团队在前期创意构思和概念验证阶段,借助 Wan 2.1 快速将剧本中的场景可视化。例如,导演可以通过输入剧本片段,生成简单的视频样片,用于评估场景效果和调整拍摄计划,节省时间和成本。
  • 教育教学:教师在制作教学视频时,运用 Wan 2.1 将抽象的知识以生动的视频形式呈现。如在物理教学中,模拟物体的运动和物理现象,帮助学生更好地理解知识点;在语言教学中,生成包含对话场景的视频,营造语言学习环境。
  • 游戏开发:游戏开发者可以利用 Wan 2.1 制作游戏宣传视频、过场动画等。通过输入游戏中的角色、场景和剧情描述,生成精美的视频,用于游戏推广和提升玩家的游戏体验。

image (13).png

Wan 2.1 使用教程

  1. 安装环境准备:首先,确保设备满足运行要求。若使用 T2V-1.3B 模型,消费级 GPU(如 RTX 4090)需准备至少 8.19GB VRAM。然后,克隆代码仓库,在终端输入git clone https://github.com/Wan-Video/Wan2.1.git,并进入项目目录cd Wan2.1。接着,安装依赖项,运行pip install -r requirements.txt,同时确保torch >= 2.4.0
  2. 模型下载:可以使用huggingface-climodelscope-cli下载模型。以huggingface-cli为例,先安装pip install "huggingface_hub[cli]",然后根据所需模型,如下载 T2V-14B 模型,输入huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B。不同模型的下载链接和适用分辨率可参考官方文档,如 I2V-14B-720P、I2V-14B-480P、T2V-1.3B 等模型都有对应的下载方式。
  3. 文本到视频生成
    • 无提示扩展的单 GPU 推理:在终端运行python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述",其中prompt后输入具体的视频生成描述。若使用 T2V-1.3B 模型且遇到内存不足问题,可添加--offload_model True --t5_cpu参数,并根据性能调整--sample_shift(8 - 12)和--sample_guide_scale 6
    • 无提示扩展的多 GPU 推理(FSDP + xDiT USP):先安装xfuser,运行pip install "xfuser>=0.4.1",然后使用torchrun进行多 GPU 推理,如torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "具体文本描述"
    • 使用提示扩展:若使用 Dashscope API 扩展提示,需提前申请dashscope.api_key,并配置环境变量DASH_API_KEY。如运行DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'。若使用本地模型扩展,默认使用 HuggingFace 上的 Qwen 模型,可根据 GPU 内存选择合适的模型,如Qwen/Qwen2.5-14B-Instruct等,并通过--prompt_extend_model指定,如python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'
    • 运行本地 gradio:进入gradio目录,若使用 Dashscope API 扩展提示,运行DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B;若使用本地模型扩展提示,运行python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B
  4. 图像到视频生成:与文本到视频生成类似,也分为有无提示扩展步骤。无提示扩展时,单 GPU 推理运行python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "具体文本描述",注意size参数根据输入图像的长宽比确定。多 GPU 推理时,先安装xfuser,再运行torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "具体文本描述"。使用提示扩展时,参考文本到视频生成的提示扩展方法,根据需求选择使用 Dashscope API 或本地模型进行扩展。运行本地 gradio 时,根据使用的模型版本,在gradio目录下运行相应命令,如使用 720P 模型且用 Dashscope API 扩展提示,运行DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
  5. 文本到图像生成:无提示扩展时,单 GPU 推理运行python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt '具体文本描述';多 GPU 推理运行torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B --size 1024*1024 --prompt '具体文本描述' --ckpt_dir ./Wan2.1-T2V-14B。有提示扩展时,单 GPU 推理添加--use_prompt_extend参数,多 GPU 推理同样添加该参数进行相应操作。

UTF-8''logo (1).png

结语

在 AI 技术蓬勃发展的当下,视频生成领域不断迎来创新突破。阿里推出的 Wan 2.1 开源视频生成模型备受瞩目,它不仅在性能上超越诸多同类产品,还为开发者和创作者提供了强大且易用的工具,引发了行业广泛关注。

如果你已被 Wan 2.1 的魅力所吸引,不妨即刻尝试使用,在创作中感受它的独特优势。点赞、评论分享你的奇妙体验,与我们一同见证 AI 视频生成技术迈向新高度。持续关注 Wan 2.1,期待它在未来释放更多潜能,带来更多超乎想象的惊喜,重塑我们对视频创作的认知。

  • 相关推荐
  • 免费使用!腾讯地图已接入DeepSeek-V3.1

    DeepSeek V3.1于2025年8月21日发布并开源,腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升:思考效率更高,响应更快;上下文理解更强,支持多轮连贯对话;智能体调用更精准,尤其在中文网页理解和跨领域搜索方面表现突出。依托升级,AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务,让导航升级为全程智能生活陪伴。

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • 阿里Wan2.2-S2V正式发布:一张图+一段音频 即可生成人物动态视频

    今晚,阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V,并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程,仅需提供一张静态图片和一段音频,模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。 支持分钟级长视频稳定生成,不止嘴动,手势、表情、姿态都能动。

  • 别再猜了!手把手教你用数据选择AI模型,我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

    开发者分享模型选择心路历程:从盲目试错到数据驱动。曾因追求低价模型导致成本飙升,后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3,基于价格、上下文长度和代码能力等数据,最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型,只有“最适合”的模型,建议开发者善用专业工具进行数据驱动决策,避免隐性成本。

  • 智能体迎来“DeepSeek时刻”,为何主角是纳米AI?

    大模型重塑了人工智能的产业格局,但却没有彻底颠覆人类的生产模式。 在这背后,并非其技术力量不足,而是当前的应用形态仍停留在“工具赋能”的初级阶段,大模型的潜力被束缚在碎片化场景中,未能转化为重构生产逻辑的核心动能。 正如360集团创始人、董事长周鸿祎所言,大模型的能力其实已经相当强大,甚至超越了我们中的许多人。只是其潜力尚未被挖掘。 而�

  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

今日大家都在搜的词: