近日,MiniMax 推出了其视频人工智能模型 Hailuo02的第二代版本,带来了性能和价格上的重大升级。这款新模型采用了一种名为噪声感知计算重分配(NCR)的架构,MiniMax 声称这一技术在训练和推理效率方面提高了2.5倍。NCR 架构在处理长视频序列时,根据训练阶段的不同采用了不同的方法。在训练初期,数据中人工噪声被大量引入,视频被尽可能压缩;而当训练到视频更清晰的阶段时,模型则以全分辨率进行处理。
与之前的版本相比,Hailuo02的参数数量增加了三倍,训练数据量也提升了四倍,MiniMax 还指出数据的质量和多样性都有所改善。虽然公司没有透露具体的参数数量或数据集规模,但他们表示 Hailuo02在处理复杂提示和模拟物理过程方面取得了显著进展。MiniMax 还自豪地宣称,Hailuo02是目前唯一能准确生成复杂场景(如体操动作)的模型。
Hailuo02有三种变体可供选择:768p 六秒视频、768p 十秒视频以及1080p 六秒视频。而之前的版本则仅限于720p、六秒的视频,帧率为25fps。在人工分析视频竞赛(Artificial Analysis Video Arena)基准测试中,Hailuo02在图像到视频类别中名列第二,仅次于字节跳动的 Seedance,并且领先于谷歌备受期待的 Veo3。然而,当前版本的 Veo3不支持音频,这也是其吸引力的一大短板。
自去年八月发布以来,已有超过37亿个视频通过 Hailuo 平台创建。MiniMax 描述其初期推广相对随机,但很快便吸引了全球创作者的广泛关注。用户可以通过网页界面、移动应用或 API 访问该模型。对于 API 用户,生成六秒的768p 视频费用为0.28美元,而1080p 版本的费用为0.49美元。相比之下,使用谷歌 Veo3生成一段八秒的1080p 视频可能需花费约3美元,具体费用取决于用户选择的计划。
MiniMax 表示,他们正在努力改善生成速度、稳定性,并添加超出当前文本到视频和图像到视频选项的新功能。与此相比,Runway 等竞争平台已经提供了更先进的功能,比如跟踪镜头。Hailuo02的发布是 MiniMax 周期间的活动的一部分,期间该公司还推出了一个开源语言模型 MiniMax-M1,并附上了参数计数和技术论文。而关于 Hailuo02的训练架构的具体技术细节,目前仍未公开。
划重点:
🌟 Hailuo02是 MiniMax 新发布的第二代视频 AI 模型,使用噪声感知计算重分配架构,训练和推理效率提高2.5倍。
💰 该模型提供更高分辨率和更长时长的视频,且视频生成费用远低于谷歌的 Veo3。
📊 自发布以来,Hailuo 平台已生成超过37亿个视频,吸引了全球大量创作者。