首页 > 业界 > 关键词  > 语音识别最新资讯  > 正文

Amazon Transcribe新一代语音基础模型驱动的ASR系统,支持100多种语言

2023-11-27 09:44 · 稿源:站长之家

# 划重点

1. 🎙️ **多语言支持:** Amazon Transcribe推出的新一代语音基础模型涵盖100多种语言,提供全面的自动语音识别(ASR)服务。

2. 🚀 **性能提升:** 利用语音基础模型,Amazon Transcribe在大多数语言中实现20%至50%的显著准确度提升,尤其在电话语音等挑战性领域中提高了30%至70%的准确度。

3. 🌐 **全面功能:** 新ASR系统支持多种特性,包括自动标点、自定义词汇、自动语言识别、说话人分离等,提供更准确的输出并有效嵌入语音技术。

站长之家(ChinaZ.com)11月27日 消息:亚马逊宣布推出全新一代语音基础模型驱动的ASR系统,将自动语音识别服务扩展到支持100多种语言。Amazon Transcribe是一项完全托管的ASR服务,使您能够轻松地将语音转换为文本,并在应用程序中添加语音到文本的功能。

新的语音基础模型是通过最先进的自监督算法训练而成,以学习跨语言和口音的人类语音的固有普遍模式。它经过数百万小时的未标记音频数据的训练,涵盖100多种语言。通过智能数据采样优化训练配方,平衡了不同语言之间的训练数据,确保传统上代表性不足的语言也能达到高准确度水平。

音频,话筒,电台

图源备注:图片由AI生成,图片授权服务商Midjourney

软件公司Carbyne是开发云端紧急呼叫响应解决方案的代表,通过Amazon Transcribe实现AI驱动的实时音频翻译,改善了对那些在家中使用非英语的6800万美国人以及每年访问该国的多达7900万外国游客的紧急响应。借助新的多语言基础模型,Carbyne将更好地实现紧急服务的民主化,确保每个人都能受益。

通过利用语音基础模型,Amazon Transcribe在大多数语言中实现了20%至50%的显著准确度提升。在电话语音等具有挑战性和数据稀缺领域,准确度提高了30%至70%。除了显著的准确度提升外,这一大型ASR模型还通过更准确的标点和大写提高了可读性。随着生成式AI的发展,成千上万的企业正在使用Amazon Transcribe从其音频内容中解锁丰富的见解。

新ASR系统提供了许多关键功能,涵盖100多种语言,包括使用方便、定制化、用户安全和隐私。这些功能包括自动标点、自定义词汇、自动语言识别、说话人分离、单词级置信度分数和自定义词汇过滤器。系统对不同口音、噪音环境和声学条件的支持扩展,使您能够产生更准确的输出,并有效地嵌入语音技术到您的应用程序中。

由于Amazon Transcribe在不同口音和噪音条件下的高准确性,支持多种语言,以及广泛的增值功能集,成千上万的企业将能够从其音频内容中解锁丰富的见解,提高其音频和视频内容在各个领域的可访问性和可发现性。例如,联系中心使用Amazon Transcribe转录和分析客户呼叫,以识别见解并随后提高客户体验和代理效率。内容制作者和媒体分销商使用Amazon Transcribe自动生成字幕,以提高内容的可访问性。

开始使用Amazon Transcribe非常简单,您可以使用AWS命令行界面(AWS CLI)、AWS管理控制台和各种AWS SDK进行批量转录,并继续使用相同的StartTranscriptionJob API从增强的ASR模型中获得性能优势,而无需在您的端口进行任何代码或参数更改。上传媒体文件到Amazon Simple Storage Service(Amazon S3)存储桶是第一步,该对象存储服务可从任何地方存储和检索任意量的数据。您可以选择将转录保存在自己的S3存储桶中,或者让Amazon Transcribe使用安全的默认存储桶。

Amazon Transcribe使用JSON表示其输出,提供两种不同的格式:文本格式和分项格式。根据创建转录作业时选择的功能,Amazon Transcribe创建转录结果的其他和丰富的视图。

在AWS的不断创新下,通过将Amazon Transcribe的语言支持扩展到100多种语言,我们使客户能够为来自不同语言背景的用户提供服务。这不仅提高了可访问性,还在全球范围内开辟了新的沟通和信息交流途径。要了解本文讨论的功能的更多信息,请查看功能页面和新功能帖子。

举报

  • 相关推荐
  • 一代Xbox或将运行Windows系统支持Steam与完整的向下兼容

    微软正在积极模糊主机与 PC 的界限。在“软硬件一体”与“开放平台”之间,微软似乎正在走出一条“融合之路”,而下一代 Xbox,或许将成为这条道路的真正起点……

  • 新一代续航灭霸!真我Neo7 Turbo搭载7200mAh泰坦电池

    真我Neo7+Turbo将于5月29日14:00发布,主打超强续航与性能。配备7200mAh大电池+百瓦快充,搭载联发科天玑9400e芯片(台积电4nm工艺),跑分达245万。采用1.5K直屏,透明后盖设计(透明黑/透明灰),内置精密可见的NFC线圈与DART闪充标识。该机通过激光雕刻工艺还原内部结构,兼具科技感与高性能,定位同档位最强旗舰。(139字)

  • 黑格 UltraCraft Reflex RS Turbo 携全新“琥珀屏”震撼上市

    5月29日,黑格科技在成立十周年之际推出UltraCraft Reflex RS Turbo 3D打印机。作为畅销款Reflex RS的升级版,RS Turbo在保持快速打印的同时,通过增强型琥珀色屏幕延长了使用寿命,打印精度和表面质量显著提升。关键升级包括:1)566:1高对比度屏幕,新增光学膜减少杂散光;2)C5级Z轴模块将运动误差控制在±2微米内;3)动态运动算法3.0使打印速度最高提升33%。新品推出限时首发优惠,购买可享8折并赠送打印耗材。该产品已上线黑格天猫旗舰店。

  • XReal牵手谷歌,推出新一代AR眼镜 Project Aura

    虽然 Xreal 设备的外形类似太阳镜,但它们在佩戴时距离眼睛较远,因此与 Meta 和苹果正在开发的 AR 眼镜属于截然不同的设备类别……

  • 新一代广播音箱哪家强?权威评测给出答案!

    中国电子音响行业协会举办的"金耳朵优选/高保真音频产品评测"活动中,ITC品牌TS-M525P和T-260H两款音箱凭借卓越音质表现通过认证。评测包含客观检测和主观评价两部分,从频响范围、失真度等指标全面考核产品性能。ITC坚持"匠心理念",采用双功率放大、DDTI压缩等创新技术,实现高保真音效。近年来ITC持续加大研发投入,已推出70+款高端音频产品,并荣获广东省科技进步一等奖等荣誉。此次认证既是对产品实力的认可,也激励品牌继续深耕音频领域,为用户带来更优质的听觉体验。

  • MAXHUB 参与IEC/TC100 工作组会议,为国际标准制定贡献力量

    2025年5月12-15日,国际电工委员会音频、视频及多媒体系统与设备技术委员会(IEC/TC100)工作会议在厦门召开。会议汇聚了来自中、日、韩、英、美、德等国的专家,线上线下共同探讨音视频领域国际标准发展。中国电子技术标准化研究院作为对口单位,组织视源股份专家李勤、陈才参会并发表专题演讲,分别就多设备协同连接、智慧教育标准化等前沿议题分享见解。会议期间还搭建了实景体验空间,展示MAXHUB与合作伙伴在视频会议、智慧教育领域的技术方案。我国作为IEC/TC100的P成员,已牵头18项国际标准项目,其中14项正式发布,持续推动全球音视频产业向更高质量方向发展。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 苹果最强笔记本!MacBook Pro内测M3 Ultra芯片

    B站一位UP主在iOS18系统代码中发现了MacBook ProM3Ultra的踪迹。 目前苹果最高端的M3Ultra芯片仅在MacStudio上搭载,在售的MacBook Pro搭载的是M

  • 小学生持二维码买煎饼 网友:新一代粮票

    2025年5月27日,河南漯河发生了一件温馨的小事。一位小学生在放学后去煎饼摊买煎饼,但他并没有带手机。原来,孩子的家长提前为他打印了一张纸质二维码,用于支付。 煎饼摊的老板对此表示理解和支持,认为这种方式既方便又安全,孩子们不需要携带电子产品,也能顺利完成支付。这一场景引起了网友们的广泛关注和讨论。