首页 > 热点 > 关键词  > 正文

腾讯云推出语音识别系统ASR 语音识别大模型上线

2024-01-05 08:39 · 稿源:站长之家

站长之家(ChinaZ.com) 1月5日 消息:腾讯云 ASR(Automatic Speech Recognition)是腾讯云推出的语音识别系统。最新升级后,腾讯云 ASR 能够更好地处理方言和噪声,提高识别准确率和理解能力。

在方言方面,腾讯云 ASR 可以识别23种地方言,并且能够应对方言混战的情况。通过自研的多语言混合识别引擎,腾讯云 ASR 可以快速识别并无缝切换不同方言,只需要一个引擎就能搞定。通过蒸馏算法和半监督训练,腾讯云 ASR 可以高效地学习已标注和未标注的数据,甚至可以处理少数民族的小方言。

微信截图_20240105084402.png

在语义识别方面,腾讯云 ASR 使用了大语言模型 LLM,通过上下文语义和大数据提取意图,提升识别准确率。对于读音相似的词,腾讯云 ASR 也能选出正确的词。此外,对于特殊场景或专业术语,AI 也能更准确地识别。

在噪声过滤方面,腾讯云 ASR 通过自主学习和优化算法,训练出抗干扰的能力。它可以自动过滤噪声,提高识别精准度。

腾讯云 ASR 已经在腾讯内部产品和外部不同行业中广泛应用,覆盖了录音质检、会议实时转写、语音输入法等多个场景。产品的单日调用量达到了百亿次,服务的内外部企业客户数达到了数千个。

体验地址:https://cloud.tencent.com/product/asr

新鲜AI产品点击了解https://top.aibase.com/

举报

  • 相关推荐
  • 腾讯云领跑中国游戏云市场,用量规模持续多年第一!

    IDC报告显示,2025年上半年腾讯云在中国游戏云市场持续领先,用量规模稳居第一,收入增速位列前三。凭借深厚技术积累,腾讯云在基础设施、云游戏接入、资源分发等细分赛道均获第一,构建了覆盖游戏全生命周期的解决方案。同时,腾讯云积极整合AI能力,推出升级版全周期方案,通过代码生成、智能运营等提升开发效率,助力游戏企业提质增效,并与《卡拉彼丘》等项目合作,验证了其技术实力,推动游戏产业创新与全球化发展。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 腾讯云、腾讯研究院、Gartner联合发布《企业级智能体产业落地研究报告》,筑牢智能体应用安全基座

    腾讯云与Gartner联合发布《企业级智能体产业落地研究报告》,提出智能体场景罗盘评估模型,覆盖金融、零售等14大行业100+应用场景。报告指出智能体正从辅助工具演进为关键业务引擎,同时企业面临安全、成本等落地挑战。腾讯云安全提供全生命周期技术保障,通过华住集团、绝味食品等案例展示智能体在提升效率、优化服务方面的显著成效,助力企业构建“高可靠、强防护”的智能体体系。

  • 专注供应链单据识别 | 运小沓AI单证平台,单据识别提效500%

    供应链数字化进程中,单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错,通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理,覆盖全场景单证类型,支持无缝对接业务系统。实际应用显示:托书录入效率提升500%,错误率降至0.1%以下;报关草单制单效率提升300%,有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Mate史上第一次!华为Mate 80全系支持3D人脸识别

    据数码博主爆料,华为Mate 80系列有望全系标配3D人脸识别,采用国产方案,核心组件均来自国内顶级供应商。该系列将提供四款机型,搭载全新鸿蒙6系统并首发麒麟9030芯片,成为华为史上最强Mate旗舰,最快或于11月亮相。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

今日大家都在搜的词: