首页 > AI头条  > 正文

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

2025-03-27 08:21 · 来源: AIbase基地

3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

Qwen2.5-Omni采用了创新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。其中,Thinker模块如同大脑,负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。此外,该模型还提出了一种新的位置编码技术TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

微信截图_20250327082050.png

该模型在实时音视频交互方面表现出色,支持分块输入和即时输出,能够实现完全实时的交互。在语音生成的自然性和稳定性方面,Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面,Qwen2.5-Omni在同等规模的单模态模型进行基准测试时,表现出卓越的性能,其音频能力优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。此外,Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA的表现。在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放,用户可以通过Demo体验互动功能,或是通过Qwen Chat直接发起语音或视频聊天,沉浸式体验全新的Qwen2.5-Omni模型强大性能。

  • Qwen Chat:https://chat.qwenlm.ai

  • Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

  • DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

  • GitHub:https://github.com/QwenLM/Qwen2.5-Omni

  • Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

  • 相关推荐
  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • AI日报:通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔;谷歌发布Gemini 2.5 Flash-Lite 稳定版

    本文介绍了AI领域多项重要进展:1)谷歌发布Gemini 2.5 Flash-Lite稳定版,平衡速度与成本;2)腾讯混元ASR语音大模型接入ima平台;3)阿里开源Qwen3-Coder编程大模型;4)360将推智能眼镜和AI录音笔;5)夸克健康大模型通过医师评测;6)零一万物发布企业级大模型平台;7)Hedra推出低成本AI视频代理;8)Gemini2.5革新图像理解能力;9)Meta推出创新文本处理模型AU-Nets;10)苹果AI团队或寻求第三方合

  • A日报:Trae 2.0 正式升级 SOLO 模式;通义发布Qwen3新模型;智谱AI重磅推出Zread

    本期AI日报聚焦多项AI领域突破:1)Trae 2.0推出SOLO模式,实现AI全流程自主开发;2)阿里通义发布Qwen3-235B大模型,支持256K文本处理;3)智谱AI推出Zread工具,一键转换GitHub项目为使用手册;4)零一万物发布万智企业大模型平台2.0及定制Agent方案;5)字节跳动推出通用机器人模型GR-3,具备高精度操作能力;6)Pika推出AI视频特效APP,降低创作门槛;7)Dia浏览器将上线AI驱动的"分身鼠标&

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 当空间智能学会思考:飞渡科技“峥嵘大模型”重塑智慧城市新一代“运行内核”

    飞渡科技的"崑仑大模型"通过空间智能技术,构建了城市级数字底座,实现从物理世界到数字空间的映射。该技术已在智慧城市、智慧交通、低空经济、地下管网、灾害监测、文化保护等领域应用,推动城市治理从"被动应对"转向"主动预测"。在智慧交通领域实现毫秒级路网状态识别和动态信号优化;在地下管网实现毫米级泄漏预警;在低空经济构建超低空动态感知网络。该技术还应用于文化遗产数字化保护,通过三维建模留存历史建筑细节。飞渡科技表示,空间智能的价值在于共享,未来将与全球伙伴共建数字中国的空间智能新生态。

  • 新一代喷气式护龈牙刷——锐舞气泡牙刷的革新之路

    随着国民健康意识觉醒与消费升级浪潮,口腔护理市场正经历深刻变革。消费者需求已从基础清洁的"刷得干净",全面转向追求专业化、预防性的"护得健康"。锐舞气泡电动牙刷以革命性"超能气泡技术"突破传统物理摩擦清洁方式,通过高速水流产生微米级气泡深入齿缝瓦解牙菌斑,实现"牙线级"清洁效果,同时显著降低对牙龈刺激。其创新软毛护�

  • AI编程终于“开箱即用”了?Qwen3-Coder或许是那个质变节点

    ​7月23日,阿里通义团队正式发布Qwen3-Coder-480B-A35B-Instruct,这可能是AI编程领域的一个分水岭时刻。该模型采用480B总参数、35B激活的MoE架构,原生支持256K上下文,可扩展至1M token,在Agentic Coding、Browser-Use、Tool-Use三大类基准中多项评测的开源SOTA,性能直接对标Claude Sonnet-4。

  • 与新一代三折叠一同发布!华为WATCH GT6入网 首次支持星闪

    日前,华为三款型号为ATM-B19、ATM-B29、KSU-B19的新品通过工信部入网核准,爆料称新品为华为WATCHGT6系列。 据博主数码闲聊站”透露,华为WATCHGT6系列有两款,代号Konsu的版本有鎏光金、流光紫、马鞍棕、浮光白、魅影黑配色。 代号Atum的版本有冰川灰、琥珀棕、钛空银、原野绿、雅丹黑配色,手表将覆盖41mm-46mm表盘,支持星闪。

  • 阿布扎比马斯达尔城启动新一代L4级无人驾驶车辆测试

    穆巴达拉集团旗下智慧出行公司Solutions+与马斯达尔城达成合作,开始在城内测试L4级自动驾驶汽车。测试由阿布扎比综合交通中心(ITC)监管,涵盖车辆注册、道路测试及运营许可全流程。测试车辆搭载L4系统,可在特定区域实现完全自主行驶。马斯达尔城作为清洁技术和智能出行领导者,正打造成为自动驾驶技术试验场。初期测试路线长2.4公里,连接西门子大楼等关键地标。该合作将助力阿联酋实现2050年净零排放战略,同时推动自动驾驶技术发展,为未来更广泛部署奠定基础。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

今日大家都在搜的词: