首页 > AI头条  > 正文

阿里通义Fun-ASR语音模型升级 垂直领域识别率跃升超15%

2025-08-23 09:21 · 来源: AIbase基地

阿里通义正式推出新一代端到端语音识别大模型Fun-ASR,该模型通过强化上下文感知与高精度转写能力,在家装、保险等垂直行业场景中实现语音识别准确率超15%的突破性提升。实测数据显示,保险行业准确率较前代提升18%,家装、畜牧等领域增幅达15%-20%。

作为大语言模型驱动的语音识别算法,Fun-ASR采用自研语音算法与Qwen3监督微调技术,结合前沿模型架构与文本模态对齐技术,在保持语言处理优势的同时,集成RAG检索增强方案,支持超1000个自定义热词导入。该功能可自动匹配音频中的领域热词、历史文档及上下文记录,显著优化特定场景下的关键词识别效果。

阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提升超15%

针对语音识别中的噪声干扰、语种混淆及生成幻觉等痛点,研发团队创新性引入强化学习(RL)技术,通过动态优化策略减少识别误差,系统稳定性与可靠性获实质性提升。值得关注的是,模型在四川话、粤语、闽南语等方言识别中表现优于同类产品,同时适应远场拾音、近场降噪等复杂声学环境,覆盖会议室、工位、超市、户外等多元场景。

训练数据层面,Fun-ASR基于上亿小时音频数据构建,深度融合互联网、科技、畜牧、汽车等十余个领域的专业术语库。这一数据优势使其在垂直行业识别中展现出显著优势,例如在畜牧行业可精准识别牲畜叫声与环境噪声中的关键指令。

阿里通义技术团队表示,Fun-ASR的进化标志着语音识别技术从通用场景向专业化、场景化深度渗透。随着模型在更多行业落地,其动态热词更新与多模态交互能力将进一步推动语音交互效率革新。

  • 相关推荐
  • 阿里通义App重大品牌升级!正式更名为“千问”

    11月14日,阿里巴巴旗下“通义”App正式更名为“千问”,版本号从3.60.0跃升至5.0.0,已登陆苹果及各大安卓应用商店。该应用基于阿里最强Qwen大模型打造,具备对话问答、智能写作、多模态相机等核心功能,被定位为“阿里最强大模型官方AI助手”。阿里巴巴视其为“AI时代的未来之战”,已抽调上百名工程师加速推进,并同步研发国际版,计划借助Qwen模型的海外影响力与ChatGPT直接争夺全球用户。

  • 一年卖出50亿,高梵的“身价”何以跃升?

    在电商行业疯狂卷低价的时候,一个高端羽绒服品牌逆流而上。 在刚刚过去的双十一,定位高端鹅绒服的高梵冲进天猫羽绒服销售榜第四,并且被传出完成新一轮融资。 从2020年左右开启高端化转型以来,高梵在不同阶段的战略侧重有所不同:最早是强化供应链基础,同时重押直播电商迅速起量,先后牵手快手、抖音和淘宝大主播。 如今,高梵开始从线上流量品牌向“正规军

  • AI日报:Lovart AI上线“元素拆分”功能;Xcode 26.1.1发布;阿里云通义模型首次大规模赋能双11

    本期AI日报涵盖八大热点:Lovart AI推出"元素拆分"功能,实现海报智能分层编辑;苹果Xcode 26.1.1优化AI编码性能;阿里云通义模型双11单日翻译调用量突破14亿次;Gemini 3在历史手稿破译中展现专家级能力;德国法院裁定OpenAI使用歌词训练构成侵权;开源语音模型Maya1实现富有表现力的实时文本转语音;Meta首席AI科学家LeCun计划离职创办世界模型公司;AI专家罗福莉加入小米,将致力于构建物理世界智能。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 九号品牌重磅升级!东莞1500平2.0生活馆开启零售新纪元

    九号公司东莞南城生活馆开业,打造1500㎡沉浸式潮玩空间,集电动车展示、咖啡吧、电竞区等多元场景于一体。通过智能解锁、超长续航等技术,重新定义年轻出行方式。全年超50场车友活动构建社群文化,旨在让电动车成为彰显个性的生活伙伴,而不仅是交通工具。这里不仅是销售终端,更是探索“出行+社交”新模式的创新标杆。

  • 你的信息可能被盯上了?省呗教你识别黑灰产“精准套路”

    金融黑灰产手法不断翻新,省呗持续提醒用户:认清黑灰产业链运作方式是远离骗局的第一步。金融黑灰产已形成高度分工的链条,以各种伪装形式侵害消费者的合法权益,更威胁正常的金融秩序,因此理解其类型十分重要。金融黑灰产大致可分为以下几类,每一种都有特定特征和明显危害:一、不正当反催收中介:是常见类型,风险等级高。这类组织常以“债务调整”或“法律支持”为招牌,收取费用后诱...

  • 中国移动北斗卫星短信业务升级:支持文字+图片+语音

    中国移动宣布北斗短信息服务完成重大升级,新增图片、语音等富媒体功能,文本传输能力显著提升,单条消息可发送40个汉字、接收达10个汉字。Redmi Note 15 Pro+卫星消息版率先支持升级,其他品牌终端也将陆续开启。此次升级在无地面网络信号时仍能通过多种形式传递信息,为户外探险、应急救援等场景提供坚实通信保障,标志着北斗通信正式步入“视听兼具”新时代。

  • 千问,阿里的未竟之梦

    在一个大阿里和一个吴妈的统一指挥下,千问诞生了。 11月17日,阿里正式宣布推出“千问”项目,面向公众上线其App公测版。该项目前身为智能信息事业群旗下的“通义App”,改名后的千问号称“阿里最强大模型官方助手”,定位为“会聊天、能办事”的个人AI助手。 官方称,千问后期计划与阿里生态内的各类生活场景深度结合。其目标是与ChatGPT展开全面竞争,标志着阿里

  • AI日报:阿里千问APP公测;Veo 3.1上线多图参考;超级小爱AI大模型“随心修图”上线

    本期AI日报聚焦多项技术突破:阿里千问APP公测,基于Qwen3模型对标ChatGPT;谷歌Veo 3.1支持三图融合生成8秒视频;小米推出"随心修图"功能与7B多模态模型Miloco;谷歌Flow集成Nano Banana模型实现智能抠图;多模态AI工具DeepEyesV2可执行代码与网络搜索;NotebookLM升级支持图像导入检索;JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温,产品迭代加速。

  • 阿里下场抢AI超级流量入口了

    在过去三年的全球AI军备赛中,阿里巴巴的主要精力放在面向B端的AI基建上,在To C的AI原生应用中,并没有投入过多精力。高盛也提出了“中国人工智能产业,AI基建看阿里,AI应用看腾讯”的观点。 然而,阿里巴巴不会轻易放过争夺下一代超级流量入口的机会,在2025年临近收官之际,向行业又投下一颗重磅炸弹。 在阿里启动“千问”项目的消息传出四天后,11月17日,阿里�

今日大家都在搜的词: