首页 > 业界 > 关键词  > 语音识别最新资讯  > 正文

Amazon Transcribe新一代语音基础模型驱动的ASR系统,支持100多种语言

2023-11-27 09:44 · 稿源:站长之家

# 划重点

1. 🎙️ **多语言支持:** Amazon Transcribe推出的新一代语音基础模型涵盖100多种语言,提供全面的自动语音识别(ASR)服务。

2. 🚀 **性能提升:** 利用语音基础模型,Amazon Transcribe在大多数语言中实现20%至50%的显著准确度提升,尤其在电话语音等挑战性领域中提高了30%至70%的准确度。

3. 🌐 **全面功能:** 新ASR系统支持多种特性,包括自动标点、自定义词汇、自动语言识别、说话人分离等,提供更准确的输出并有效嵌入语音技术。

站长之家(ChinaZ.com)11月27日 消息:亚马逊宣布推出全新一代语音基础模型驱动的ASR系统,将自动语音识别服务扩展到支持100多种语言。Amazon Transcribe是一项完全托管的ASR服务,使您能够轻松地将语音转换为文本,并在应用程序中添加语音到文本的功能。

新的语音基础模型是通过最先进的自监督算法训练而成,以学习跨语言和口音的人类语音的固有普遍模式。它经过数百万小时的未标记音频数据的训练,涵盖100多种语言。通过智能数据采样优化训练配方,平衡了不同语言之间的训练数据,确保传统上代表性不足的语言也能达到高准确度水平。

音频,话筒,电台

图源备注:图片由AI生成,图片授权服务商Midjourney

软件公司Carbyne是开发云端紧急呼叫响应解决方案的代表,通过Amazon Transcribe实现AI驱动的实时音频翻译,改善了对那些在家中使用非英语的6800万美国人以及每年访问该国的多达7900万外国游客的紧急响应。借助新的多语言基础模型,Carbyne将更好地实现紧急服务的民主化,确保每个人都能受益。

通过利用语音基础模型,Amazon Transcribe在大多数语言中实现了20%至50%的显著准确度提升。在电话语音等具有挑战性和数据稀缺领域,准确度提高了30%至70%。除了显著的准确度提升外,这一大型ASR模型还通过更准确的标点和大写提高了可读性。随着生成式AI的发展,成千上万的企业正在使用Amazon Transcribe从其音频内容中解锁丰富的见解。

新ASR系统提供了许多关键功能,涵盖100多种语言,包括使用方便、定制化、用户安全和隐私。这些功能包括自动标点、自定义词汇、自动语言识别、说话人分离、单词级置信度分数和自定义词汇过滤器。系统对不同口音、噪音环境和声学条件的支持扩展,使您能够产生更准确的输出,并有效地嵌入语音技术到您的应用程序中。

由于Amazon Transcribe在不同口音和噪音条件下的高准确性,支持多种语言,以及广泛的增值功能集,成千上万的企业将能够从其音频内容中解锁丰富的见解,提高其音频和视频内容在各个领域的可访问性和可发现性。例如,联系中心使用Amazon Transcribe转录和分析客户呼叫,以识别见解并随后提高客户体验和代理效率。内容制作者和媒体分销商使用Amazon Transcribe自动生成字幕,以提高内容的可访问性。

开始使用Amazon Transcribe非常简单,您可以使用AWS命令行界面(AWS CLI)、AWS管理控制台和各种AWS SDK进行批量转录,并继续使用相同的StartTranscriptionJob API从增强的ASR模型中获得性能优势,而无需在您的端口进行任何代码或参数更改。上传媒体文件到Amazon Simple Storage Service(Amazon S3)存储桶是第一步,该对象存储服务可从任何地方存储和检索任意量的数据。您可以选择将转录保存在自己的S3存储桶中,或者让Amazon Transcribe使用安全的默认存储桶。

Amazon Transcribe使用JSON表示其输出,提供两种不同的格式:文本格式和分项格式。根据创建转录作业时选择的功能,Amazon Transcribe创建转录结果的其他和丰富的视图。

在AWS的不断创新下,通过将Amazon Transcribe的语言支持扩展到100多种语言,我们使客户能够为来自不同语言背景的用户提供服务。这不仅提高了可访问性,还在全球范围内开辟了新的沟通和信息交流途径。要了解本文讨论的功能的更多信息,请查看功能页面和新功能帖子。

举报

  • 相关推荐
  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • 专注供应链单据识别 | 运小沓AI单证平台,单据识别提效500%

    供应链数字化进程中,单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错,通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理,覆盖全场景单证类型,支持无缝对接业务系统。实际应用显示:托书录入效率提升500%,错误率降至0.1%以下;报关草单制单效率提升300%,有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • Mate史上第一次!华为Mate 80全系支持3D人脸识别

    据数码博主爆料,华为Mate 80系列有望全系标配3D人脸识别,采用国产方案,核心组件均来自国内顶级供应商。该系列将提供四款机型,搭载全新鸿蒙6系统并首发麒麟9030芯片,成为华为史上最强Mate旗舰,最快或于11月亮相。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

今日大家都在搜的词: