首页 > AI头条  > 正文

阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行

2025-02-27 10:08 · 来源: AIbase基地

近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。

官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。对于普通用户来说,虽然14B 的参数在个人消费级显卡上部署较为困难,但阿里还特别推出了一个1.3B 的小版本,支持480P 分辨率,使用12GB 显存的4070显卡即可流畅运行。

大脑 大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

除了14B 和1.3B 版本,阿里还发布了两个额外的视频生成模型,均采用 Apache2.0协议,意味着用户可以免费商用。在实际操作中,用户可以通过阿里提供的平台访问这款模型,快速生成视频,但由于用户量激增,有时可能会出现等待时间过长的情况。对于有一定技术基础的用户,还可以通过 HuggingFace 和魔搭社区等多种途径自行安装和调试。

Wan2.1最大的亮点在于其技术创新。该模型采用了 Diffusion Transformer 架构,并使用3D 变分自动编码器,专门为视频生成设计。通过引入多种压缩和并行策略,该模型在保证质量的同时,大幅度提高了生成效率。研究表明,Wan 的重建速度是当前同类技术的2.5倍,大大节省了计算资源。

在用户体验方面,Wan2.1也获得了众多好评。无论是生成动态场景中的细节,还是自然的物理效果,模型的表现都让人眼前一亮。用户们通过该模型不仅能够制作出高质量的视频作品,还能轻松实现文字的动态呈现,为创作带来了更多可能。

阿里巴巴的 Wan2.1模型不仅技术先进,而且为广大创作者提供了更多的创作自由度,标志着视频生成技术的又一突破。

  • 相关推荐
  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 同传翻译 流畅交流 三星Galaxy Buds3 FE出境游必备

    十一假期临近,三星Galaxy Tab S11系列平板与Galaxy Buds3FE等智能新品成为旅行好帮手。Tab S11通过大屏与AI功能简化行程规划、购票等准备工作,支持智能拖拽分屏提升效率;Buds3FE则提供实时翻译功能,解决出境游语言障碍。两者结合让旅行更轻松,回归纯粹享受。

  • 0卡顿!vivo Origin OS 6官宣:行业首发三大流畅底层技术!

    vivo于9月24日宣布OriginOS 6系统将于10月10日正式发布,主打“0卡顿”流畅体验。系统通过三大底层技术突破:超核计算技术智能调度资源,优先保障重要任务流畅度;双渲染架构分别处理日常操作与重负载场景,优化显示性能;光子存储技术提升内存读写效率,解决DMA盲区问题。官方测试显示,在高温环境下连续启动多轮应用仍保持0卡顿。新系统将由vivo X300系列首发,旧机型适配计划同步公布。

  • AI日报:小米开源首个原生端到端语音大模型;通义万相Wan2.2-Animate正式开源;Suno v5即将上线

    AI日报今日聚焦多项技术突破:小米开源首个端到端语音大模型Xiaomi-MiMo-Audio;通义万相推出全新动作生成模型Wan2.2-Animate;Suno即将发布革命性音乐模型v5;生数科技获数亿融资,视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞,谷歌将Gemini集成至Chrome浏览器,Luma AI发布支持16位色的Ray3视频生成模型,法国Mistral推出开源推理模型Magistral Small 1.2,Notion发布AI智能体,腾讯混元3D Studio提升3D创作效率。

  • 特斯拉2025年Q3交付497099辆 远超预期

    特斯拉2025年第三季度交付497,099辆车,远超市场预估的439,612辆。Model 3/Y仍是主力,交付481,166辆,占比96.8%。分析指出,超预期表现得益于多重因素:美国电动车税收优惠9月底到期刺激短期订单,中国市场回暖及新款Model Y热销推动需求,同时生产流程优化提升效率。但人士警告,第四季度销量或面临压力,因税收优惠终止可能削弱购买动力。

  • 流畅度提升明显!iOS 26正式版发布 苹果液态玻璃设计引争议:你觉得丑吗

    赶在iPhone 17发售前,今天iOS 26正式版已经推出。 随着iOS 26正式版的推出,苹果在系统中的液态玻璃设计也是引来争议,有的网友吐槽太丑了,也有网友表示早已习惯。 吐槽丑的人表示,液态玻璃”设计非但没有让视觉焦点更清晰,反而常因可读性问题和易分散注意力的视觉效果模糊焦点。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

今日大家都在搜的词: