首页 > 业界 > 关键词  > 全模态大模型最新资讯  > 正文

性能对标Gemini 2.5 Pro!蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

2026-02-11 14:13 · 稿源: 快科技

2月11日,蚂蚁集团正式对外开源其新一代多模态模型Ming-Flash-Omni 2.0。

根据多项公开基准测试结果,该模型在图文理解、音频生成与图像处理等核心功能上表现优异,部分性能指标达到行业领先水平。

据悉,该模型是业内首个能够实现全场景音频统一生成的技术方案,可于单一音轨中同步合成语音、背景音效及音乐。

用户通过输入自然语言指令,即可对生成音频的音色、语速、语调乃至情感风格进行精细化调整。

在运行效率方面,模型实现了低至3.1Hz的推理帧率,能够以分钟级时长实时生成高保真长音频,在效能与成本控制上具备显著优势。

蚂蚁集团开源新一代多模态模型Ming-Flash-Omni 2.0

蚂蚁集团在多模态技术领域已深耕多年,Ming-Omni系列历经三次重要版本迭代。此次开源Ming-Flash-Omni 2.0,旨在将其核心能力以基础技术模块的形式向业界开放,为开发端到端多模态应用提供统一的技术支撑。

技术报告显示,该模型基于Ling-2.0混合专家架构进行训练,围绕“精准视觉识别、细致音频解析、稳定内容生成”三大方向进行了系统性优化。

在视觉能力上,通过融合海量细粒度数据与针对性训练,模型对相似物种、工艺细节及特定文物等复杂对象的辨识精度显著提升;

在音频方面,不仅实现了语音、音效与音乐的同轨合成,支持通过自然语言精确调控多项声音参数,还具备零样本音色复现与定制功能;

在图像处理上,增强了复杂编辑任务的稳定性,支持光影调节、场景置换、人物姿态优化及快速修图等操作,并在动态画面中保持了良好的连贯性与真实感。

目前,Ming-Flash-Omni 2.0的模型权重及相关推理代码已在Hugging Face等主流开源社区发布。开发者也可通过蚂蚁集团官方平台Ling Studio进行在线体验与接口调用。

举报

  • 相关推荐
  • MWC首秀即焦点!讯飞AI眼镜携多模态同传大模型革新智能穿戴体验

    在2026年世界移动通信大会(MWC)上,科大讯飞以“AI Connecting Ideas”为主题,首次全球亮相其AI眼镜。该产品集多模态同传翻译与极致轻量化设计于一身,凭借领先的多模态降噪、全能翻译及多模态记录功能,吸引了众多海外运营商、技术伙伴及专业媒体的关注。其创新的唇动识别多模态降噪方案,通过摄像头捕捉说话者唇部运动,融合骨传导麦克风捕捉佩戴者声音,将音视频两路信息融合处理,在多人交谈的嘈杂背景中精准锁定目标讲话人,将语音识别和翻译的准确率提升50%以上。整机重量仅40克,相比当前市面主流同类产品重量降低了约20%,是目前全球最轻的双目单色显示多模态智能眼镜。此外,讯飞AI眼镜还具备多模态记录功能,能自动智能生成图文声并茂的会议纪要,覆盖信息记录和总结的全流程,为跨国商务人群提升工作效率。讯飞AI眼镜于北京时间3月4日上午10:10在国内电商开启预约。

  • 拒绝向大模型“投毒”!PureblueAI清蓝用可信优化构建品牌AI护城河

    Gartner预测,到2028年,50%的搜索引擎流量将被AI搜索取代。随着AI大模型的普及,互联网流量入口正从“搜索”向“对话与推荐”迁移。消费者决策方式转变,品牌如何被AI推荐成为CMO的核心挑战。部分服务商采用“黑帽”手段污染AI模型数据,损害消费者权益与品牌声誉。PureblueAI清蓝提出以可信优化技术应对,通过真实、优质的数字内容建立品牌长期护城河,并推出企业AI营销平台mkter.ai,以AI原生数字员工“Mark”助力品牌实现AI口碑全域优化。

  • 首个龙虾增强大模型 智谱GLM-5-Turbo发布:套餐39元起

    近期OpenClaw小龙虾火爆全球,智谱不仅推出了自己的AutoCalw澳龙软件,还发了一个适配龙虾的大模型Pony-Alpha-2,现在它正式以GLM-5-Turbo的名称问世。 GLM-5-Turbo号称全球首个专为龙虾场景深度优化的通用大模型,从训练阶段就针对龙虾任务的核心需求进行专项优化,增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力。 具体表现方面,智谱也针对龙虾使用环�

  • 字节聚力GEO技术解读:如何让AI大模型主动推荐你的品牌

    文章介绍了字节聚力公司提出的GEO(生成式引擎优化)技术,旨在帮助品牌在AI大模型时代获得优先推荐。GEO通过四大核心系统实现:构建企业知识图谱,使AI能“理解”品牌价值;训练专属智能体(GEO-Agent)进行策略决策;针对不同AI平台优化内容分发;并通过用户意图监测平台实现动态优化。该技术标志着从传统SEO到适应AI认知逻辑的转变,帮助品牌成为大模型眼中的“可信答案”。

  • 技嘉与趋境科技联合部署AMaaS平台 推动本地大模型应用加速落地

    技嘉推出AI TOP ATOM桌面级本地AI计算平台,搭载NVIDIA GB10芯片,具备强大算力与统一内存,支持模型训练、推理与部署。该平台与趋境科技自研模型管理平台AMaaS联合部署,简化大模型本地化应用流程,降低部署门槛与运维负担,实现开箱即用。双方合作旨在推动大模型应用低成本、高效率落地,助力个人与企业用户快速构建本地AI应用。未来,技嘉将持续关注AI行业趋势,深化本地化部署与软硬协同方案。

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • 小度全产品矩阵亮相 AWE,看大模型时代如何让 AI 真正走进千家万户

    3月12日,中国家电及消费电子博览会(AWE2026)将在上海开幕。作为行业领先的AI助手硬件品牌,小度科技将首次携全系产品矩阵亮相,展示其“场景+AI+硬件”战略的落地成果。从智能音箱、智能屏到AI眼镜、智能摄像头等硬件,以及AI酒店、AI养老等行业解决方案,小度将呈现一个完整的AI生态。这一切的背后,是2025年底升级的“超能小度”——基于大模型打造的多模态AI智能助手,让小度产品真正具备了“看见”世界、“思考”需求的能力。在AWE现场,观众将有机会亲身体验多模态AI如何重塑家庭看护、随身办公、智能交互等场景。小度正以实际行动回答:大模型时代,AI应如何走进千家万户。

  • 百度智能云发布零部署服务DuClaw:无需自行配置大模型

    百度智能云推出了一项名为DuClaw的零部署服务,将此前已大幅简化的一键部署”模式进一步升级为零部署”。 用户无需自行选择OpenClaw镜像部署云端服务器,也无需配置大模型推理服务的API Key,真正做到了零门槛养虾”。 目前,用户已可通过网页端直接使用该服务,后续还将陆续支持企业微信、钉钉、飞书等主流通讯应用,让AI助理随时随地触手可及。 据介绍,通过DuClaw,

  • 忆联UH812a以极致存力破局大模型载入瓶颈,释放算力潜能

    随着大模型技术规模化落地,AI应用的实时性正成为企业竞争力的核心。然而,在算力持续升级的同时,模型从存储层加载至计算单元的环节却日渐成为制约系统效率与弹性的关键瓶颈。缓慢或波动的加载过程,不仅会导致昂贵算力资源的闲置,更直接影响业务响应质量。由此可见,构建高效、稳定的数据供给通道,已成为AI基础设施演进的关键方向。为验证企业级SSD在真实AI�

  • 2026大模型时代的电销变革:五大主流AI外呼平台核心能力横向对比

    本文分析了2024-2025年AI外呼行业因大语言模型渗透而发生的范式转变,市场规模已突破百亿。文章从语义理解深度、多轮对话能力、部署灵活性、行业适配度及性价比五个维度,横向对比了市场上五家代表性AI外呼平台(Avavox、中关村科金·得助智能、合力亿捷、沃丰科技Udesk、百应科技),为不同规模与行业的企业提供选型参考。核心结论是:企业应回归自身业务场景的核心需求进行匹配,初创和中小企业可关注低门槛、快部署、按需付费的轻量化平台;对合规与专业度要求高的大型企业,深耕行业的定制化方案更为合适;而需嵌入现有全渠道系统的大型集团,老牌厂商是更稳妥的选择。趋势上,行业正从“工具思维”转向“数字员工思维”,平台的大模型能力深度、角色配置灵活性及与企业现有系统的集成能力将成为长期价值的关键。

今日大家都在搜的词: