据媒体5月28日报道,全球AI评测平台Artificial Analysis最新发布的语音排行榜(Speech Arena)显示,阿里巴巴旗下语音大模型Fun-Realtime-TTS-Preview以1190分的Elo评分,位列全球第五、国产第一。
在ASR(语音转文字)、Chat(端到端语音理解与对话)以及TTS(文字转语音)三大核心领域,该模型均获得国内排名第一,实现了语音交互领域“全赛道领先”。
语音大模型的能力通常分为三个维度:准确识别(ASR)、流畅表达(TTS)与智能对话(Chat)。这三项能力各自独立,又相互支撑,共同构成完整的语音交互体验。
此前,阿里语音大模型家族中的另外两款产品——Fun-Realtime-ASR和Fun-Realtime-AudioChat,已在同一平台取得领先,分别拿下“听准”“听懂”“会聊”三项指标的全球第一,整体表现超越了GPT-Realtime-2等国际主流语音模型。
目前,阿里语音大模型家族已深度集成至千问App、高德地图、钉钉等国民级应用,提供实时语音转文字、智能导航交互、会议纪要生成等核心服务。
此外,该模型还支持企业级定制接口,可灵活适配金融、医疗等行业的特定场景。阿里语音团队开源的FunASR、CosyVoice等多款模型,在GitHub上累计收获数万星标,受到国内外开发者的广泛关注。

(举报)
