Amazon Transcribe新一代语音基础模型驱动的ASR系统，支持100多种语言

2023-11-27 09:44 · 稿源：站长之家

# 划重点
1. 🎙️ **多语言支持:** Amazon Transcribe推出的新一代语音基础模型涵盖100多种语言，提供全面的自动语音识别（ASR）服务。
2. 🚀 **性能提升:** 利用语音基础模型，Amazon Transcribe在大多数语言中实现20%至50%的显著准确度提升，尤其在电话语音等挑战性领域中提高了30%至70%的准确度。
3. 🌐 **全面功能:** 新ASR系统支持多种特性，包括自动标点、自定义词汇、自动语言识别、说话人分离等，提供更准确的输出并有效嵌入语音技术。

站长之家（ChinaZ.com）11月27日消息:亚马逊宣布推出全新一代语音基础模型驱动的ASR系统，将自动语音识别服务扩展到支持100多种语言。Amazon Transcribe是一项完全托管的ASR服务，使您能够轻松地将语音转换为文本，并在应用程序中添加语音到文本的功能。

新的语音基础模型是通过最先进的自监督算法训练而成，以学习跨语言和口音的人类语音的固有普遍模式。它经过数百万小时的未标记音频数据的训练，涵盖100多种语言。通过智能数据采样优化训练配方，平衡了不同语言之间的训练数据，确保传统上代表性不足的语言也能达到高准确度水平。

音频，话筒，电台

图源备注：图片由AI生成，图片授权服务商Midjourney

软件公司Carbyne是开发云端紧急呼叫响应解决方案的代表，通过Amazon Transcribe实现AI驱动的实时音频翻译，改善了对那些在家中使用非英语的6800万美国人以及每年访问该国的多达7900万外国游客的紧急响应。借助新的多语言基础模型，Carbyne将更好地实现紧急服务的民主化，确保每个人都能受益。

通过利用语音基础模型，Amazon Transcribe在大多数语言中实现了20%至50%的显著准确度提升。在电话语音等具有挑战性和数据稀缺领域，准确度提高了30%至70%。除了显著的准确度提升外，这一大型ASR模型还通过更准确的标点和大写提高了可读性。随着生成式AI的发展，成千上万的企业正在使用Amazon Transcribe从其音频内容中解锁丰富的见解。

新ASR系统提供了许多关键功能，涵盖100多种语言，包括使用方便、定制化、用户安全和隐私。这些功能包括自动标点、自定义词汇、自动语言识别、说话人分离、单词级置信度分数和自定义词汇过滤器。系统对不同口音、噪音环境和声学条件的支持扩展，使您能够产生更准确的输出，并有效地嵌入语音技术到您的应用程序中。

由于Amazon Transcribe在不同口音和噪音条件下的高准确性，支持多种语言，以及广泛的增值功能集，成千上万的企业将能够从其音频内容中解锁丰富的见解，提高其音频和视频内容在各个领域的可访问性和可发现性。例如，联系中心使用Amazon Transcribe转录和分析客户呼叫，以识别见解并随后提高客户体验和代理效率。内容制作者和媒体分销商使用Amazon Transcribe自动生成字幕，以提高内容的可访问性。

开始使用Amazon Transcribe非常简单，您可以使用AWS命令行界面（AWS CLI）、AWS管理控制台和各种AWS SDK进行批量转录，并继续使用相同的StartTranscriptionJob API从增强的ASR模型中获得性能优势，而无需在您的端口进行任何代码或参数更改。上传媒体文件到Amazon Simple Storage Service(Amazon S3)存储桶是第一步，该对象存储服务可从任何地方存储和检索任意量的数据。您可以选择将转录保存在自己的S3存储桶中，或者让Amazon Transcribe使用安全的默认存储桶。

Amazon Transcribe使用JSON表示其输出，提供两种不同的格式:文本格式和分项格式。根据创建转录作业时选择的功能，Amazon Transcribe创建转录结果的其他和丰富的视图。

在AWS的不断创新下，通过将Amazon Transcribe的语言支持扩展到100多种语言，我们使客户能够为来自不同语言背景的用户提供服务。这不仅提高了可访问性，还在全球范围内开辟了新的沟通和信息交流途径。要了解本文讨论的功能的更多信息，请查看功能页面和新功能帖子。

（举报）

相关推荐

关键词：

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

AI时代重塑陪伴形式，联想“想帮帮AI服务智能体”以公益之心推出，通过五大功能（智玩、智验、智检、智修、智换）构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统，一键解决电脑卡顿等问题，让用户省时省心。该服务强调责任与长期守护，结合北京领养日公益理念，传递科技向善、服务有爱的智能温度，重新定义AI陪伴的全部意义。

AI陪伴领养代替购买智能服务
专注供应链单据识别 | 运小沓AI单证平台，单据识别提效500%

供应链数字化进程中，单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错，通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理，覆盖全场景单证类型，支持无缝对接业务系统。实际应用显示：托书录入效率提升500%，错误率降至0.1%以下；报关草单制单效率提升300%，有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

供应链数字化转型单证处理效率瓶颈
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
Mate史上第一次！华为Mate 80全系支持3D人脸识别

据数码博主爆料，华为Mate 80系列有望全系标配3D人脸识别，采用国产方案，核心组件均来自国内顶级供应商。该系列将提供四款机型，搭载全新鸿蒙6系统并首发麒麟9030芯片，成为华为史上最强Mate旗舰，最快或于11月亮相。

华为Mate 80 3D人脸识别
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行

今日大家都在搜的词：

热文

3 天
7天

Amazon Transcribe新一代语音基础模型驱动的ASR系统，支持100多种语言

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

专注供应链单据识别 | 运小沓AI单证平台，单据识别提效500%

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐MiniMax让AI语音有了新基建

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

DeepSeek开源3B OCR模型：长文本识别达97%精度

Mate史上第一次！华为Mate 80全系支持3D人脸识别

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机