2月11日,蚂蚁集团正式对外开源其新一代多模态模型Ming-Flash-Omni 2.0。
根据多项公开基准测试结果,该模型在图文理解、音频生成与图像处理等核心功能上表现优异,部分性能指标达到行业领先水平。
据悉,该模型是业内首个能够实现全场景音频统一生成的技术方案,可于单一音轨中同步合成语音、背景音效及音乐。
用户通过输入自然语言指令,即可对生成音频的音色、语速、语调乃至情感风格进行精细化调整。
在运行效率方面,模型实现了低至3.1Hz的推理帧率,能够以分钟级时长实时生成高保真长音频,在效能与成本控制上具备显著优势。

蚂蚁集团在多模态技术领域已深耕多年,Ming-Omni系列历经三次重要版本迭代。此次开源Ming-Flash-Omni 2.0,旨在将其核心能力以基础技术模块的形式向业界开放,为开发端到端多模态应用提供统一的技术支撑。
技术报告显示,该模型基于Ling-2.0混合专家架构进行训练,围绕“精准视觉识别、细致音频解析、稳定内容生成”三大方向进行了系统性优化。
在视觉能力上,通过融合海量细粒度数据与针对性训练,模型对相似物种、工艺细节及特定文物等复杂对象的辨识精度显著提升;
在音频方面,不仅实现了语音、音效与音乐的同轨合成,支持通过自然语言精确调控多项声音参数,还具备零样本音色复现与定制功能;
在图像处理上,增强了复杂编辑任务的稳定性,支持光影调节、场景置换、人物姿态优化及快速修图等操作,并在动态画面中保持了良好的连贯性与真实感。
目前,Ming-Flash-Omni 2.0的模型权重及相关推理代码已在Hugging Face等主流开源社区发布。开发者也可通过蚂蚁集团官方平台Ling Studio进行在线体验与接口调用。
(举报)
