首页 > AI头条  > 正文

阿里全面开源文生视频模型万相2.1:14B和1.3B双版本上线

2025-02-26 09:45 · 来源: AIbase基地

今日,阿里巴巴官方宣布全面开源旗下视频生成模型万相2.1模型,14B和1.3B双版本上线。其中,专业版14B,高性能,提供业界顶尖的表现力可满足对视频质量有极高要求的场景;而极速版1.3B,适合消费级显卡,8.2GB显存即可生成480P高质量视频,适用于二次模型开发和学术研究。

图片

据官方介绍,本次开源的 Wan2.1在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循方面展现出显著优势,能够满足创作者、开发者和企业用户的多样化需求。借助于通义万相,用户可以轻松实现高质量的视频生成,尤其在广告和短视频领域,满足了对创意的高要求。

权威评测集 VBench 中,通义万相以总分86.22% 高居榜首,远超 Sora、Minimax、Luma 等国内外其他视频生成模型。该评测基于主流的 DiT 和线性噪声轨迹 Flow Matching 范式,通过一系列技术创新提升了模型的生成能力。特别是自研的高效3D 因果 VAE 模块,成功实现256倍无损视频隐空间压缩,支持任意长度视频的高效编码与解码。

QQ_1740534242356.png

通义万相在生成视频的过程中,采用了基于主流 DiT 结构的 Full Attention 机制,有效建模时空依赖性,确保生成视频的高质量与一致性。模型的训练策略采用6阶段分步训练法,从初步的低分辨率数据训练逐步引入高分辨率数据,以保证模型在不同条件下的优异表现。此外,通义万相在数据处理方面也采取了严格的清洗流程,以确保训练数据的高质量。

在训练与推理效率优化方面,通义万相采用了多种先进技术,如分布式训练策略、激活值优化和显存管理,确保模型训练的稳定性与推理效率。通过与阿里云训练集群的智能调度结合,模型在训练过程中能够自动识别故障并快速重启,确保训练过程的顺利进行。

通义万相2.1已在 GitHub、Hugging Face 等平台开源,支持多种主流框架,为开发者和研究者提供了便利的使用体验。无论是快速原型开发还是高效生产部署,通义万相都能满足不同用户的需求,为视频生成技术的发展注入了新的活力。

QQ_1740534298370.png

魔塔社区入口:https://modelscope.cn/organization/Wan-AI

划重点: 

🌟 通义万相2.1开源,支持多样化视频生成需求。

🏆 在 VBench 评测中以86.22% 高分获胜,领先其他模型。

🚀 采用分步训练及多项技术优化,提升了生成效率和质量。

  • 相关推荐
  • 小米17 Ultra提供双版本:顶配版独占双卫星通信

    小米14 Ultra已备案两个版本,型号分别为2512BPNDAC和2512BSPNA1C,全系支持UWB。高配版搭载双卫星通信技术,支持天通一号卫星通话及北斗短报文,可在无地面网络时保持通信。工业设计采用1.5K直屏与超级像素新国屏,后置5000万超大底主摄及2亿像素潜望长焦,支持长焦微距。搭载骁龙8 Gen3平台,支持无线充电、IP68防水,配备大容量金沙江电池,预计春节前发布。

  • 400万月活,2500万用户,1.3亿美元:LiblibAI拿到今年国内AI应用最大一笔钱

    AI应用公司LiblibAI近期完成1.3亿美元B轮融资。从目前公开数据来看,这是国内AI应用公司今年最大的一笔融资。 据官方透露,本轮融资由红杉中国、CMC资本及一战略投资方联合领投,老股东顺为资本、源码资本、明势创投、渶策资本均超额增持,远识资本继续担任本轮融资的独家财务顾问。 Liblib是ChatGPT出现后AI应用井喷般创业潮里十分典型的一家公司,它由在大厂打过硬仗的

  • 宝藏新品登场!WIKO Hi MateBook 14锐龙版预售:颜艺双全,福利拉满

    WIKO Hi MateBook 14锐龙版于10月24日开启预售,起售价4999元。配备14英寸2.8K OLED触控屏,支持120Hz刷新率、100% sRGB色域及专业级色准,搭载AMD锐龙7 H255处理器与Radeon 780M显卡,性能强劲。设计上采用波点艺术键盘与1.32kg轻薄机身,支持AI智慧功能及跨设备协同,内置70Wh电池满足全天移动办公需求,兼顾高颜值与实用性,适合职场人士与创作者。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 成交均价39万力压BBA!鸿蒙智行10月交付68216台创新高

    鸿蒙智行10月销量创纪录:单月交付新车68216台,创历史新高;全系累计交付突破100万台,成为最快达成百万交付的新势力品牌。成交均价达39万元,超越宝马、奔驰等传统豪华品牌,位居中国主流品牌(月销过万)第一。旗下五款车型中,问界是绝对主力;智界S7/R7上市后竞争力大增;享界稳居30万以上豪华新能源销冠;尊界S800大定超1.5万台;尚界H5上市一小时订单破万,10月有望交付破万。问界M9连续多月蝉联国内50万级销冠。

  • 饿了么APP更名为淘宝闪购 版本号升级至12.0.2

    饿了么App正式升级为淘宝闪购,版本号12.0.2,打通天猫旗舰店与饿了么货盘资源,推出“电商低至30分钟送达”极速服务,覆盖餐饮、3C数码、美妆等全品类商品。升级后与饿了么携手加大补贴力度,提供免单红包、免单奶茶、大额满减外卖券等超级权益,并加入今年天猫双11活动,88VIP用户可获红包惊喜、折上折等福利,提升消费者购物体验与实惠。

  • AI日报:Google Skills平台向公众免费开放内部AI知识;LiblibAI 完成1.3亿美元融资;Sora更新推出“角色客串”功能

    本期AI日报聚焦视频生成领域重大进展:昆仑万维SkyReels将于11月上线新版AI视频工具;LiblibAI完成1.3亿美元融资;阿里推出夸克对话助手;豆包视频模型Seedance1.0pro实现首尾帧一致性突破;Vidu Q2全面开放API;Sora新增角色客串功能并即将推出安卓版;MiniMax海螺2.3在真实感方面超越Veo;谷歌推出免费AI学习平台"Google Skills";字节跳动Seed团队发布3D生成模型Seed3D1.0,支持单图生成高质量3D资产。

  • 小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

    小鹏汽车在2025科技日宣布,将于2026年推出三款全栈自研L4级Robotaxi,同步开启试运营。该车型搭载4颗图灵AI芯片,算力达3000TOPS,配备第二代VLA模型,具备强大泛化学习能力,能自适应全球不同交通习惯。作为中国首款全栈自研Robotaxi,无需额外改装,不依赖高精地图即可实现量产。车辆提供两套智驾方案,分别侧重通勤效率与极致安全,并在六大关键系统采用双冗余设计,确保行驶安全。小鹏还将开放Robotaxi SDK,与高德地图等伙伴共建全球服务生态。

  • 乡村坝子里的顶流男团 云南Bigbang极致反差硬控全网

    ​“找遍韩国才凑齐一个Bigbang,但在云南只需要一个妈就行了。” 近日,由五位亲兄弟组成的云南Bigbang,在抖音横空出世,无数网友被他们的直播和切片硬控。 每天上午,云南昭通一处院里都会升起由苞谷杆燃烧带来的白雾,点进@关恒(蹦山咔拉咔)的直播间,你可以看到,五位亲兄弟迅速站好位置,手机架在板凳上,随着BIGBANG《Fantastic Baby》前奏响起,他们瞬间切换成�

  • 万源共振,智构未来,全球开源技术峰会GOTC 2025在京开幕

    11月1日,全球开源技术峰会GOTC+2025在北京亦庄开幕,以“万源共振,智构未来”为主题,汇聚全球开源与AI领域专家。峰会探讨开源与人工智能深度融合的技术前景与生态建设,发布Open AgentKit平台及天翼云开源OpenTeleDB等成果。现场超2000人参会,直播观看超300万,展现中国开源生态活力与创新潜力,推动数字经济发展。

今日大家都在搜的词: