AWS语音转文本服务推出生成式AI技术支持100种语言

2023-11-28 10:54 · 稿源：站长之家

要点:
亚马逊的 AWS 公司宣布其语音转文本服务 Amazon Transcribe 现在由生成式人工智能（Generative AI）技术驱动，能够识别并转录来自100种语言的语音。
Amazon Transcribe 使用自监督算法通过数百种语言的数百万小时未标记音频数据进行训练，确保不同语言和口音的准确性。AWS强调在训练数据中平衡使用频率较低的语言，以确保它们与常用语言一样准确。
提升语言识别技术不仅改进了Amazon Transcribe的准确性，还扩展到了其Call Analytics平台，该平台通过生成式人工智能模型对客户与代理之间的交互进行摘要，减少了报告创建的后续工作。

亚马逊的 AWS 公司宣布，其语音转文本服务 Amazon Transcribe 现在采用生成式人工智能技术，能够识别并转录来自100种语言的语音，相较于2022年底的79种语言有了显著的提升。据AWS称，Transcribe通过对超过100种语言的数百万小时未标记音频数据进行自监督训练，使用算法学习不同语言和口音的语音模式，且在训练中确保了频率较低的语言得到适当的平衡。此举不仅提高了Transcribe在多语种上的准确性，还推动了其Call Analytics平台的进步，该平台通过生成式AI模型总结了代理和客户之间的互动，降低了后续报告创建的工作量。

音频人工智能

图源备注：图片由AI生成，图片授权服务商Midjourney

与此同时，AWS还宣布了对其Amazon Personalization产品的额外功能，该产品允许客户根据先前的活动向用户推荐产品或显示推荐列表。新功能Content Generation能够撰写与推荐列表主题相关的标题或电子邮件主题行。这进一步展示了AWS在利用AI技术提升其云服务产品功能方面的努力。

虽然Amazon Transcribe是AI驱动的语音转文本服务中的一员，但市场上也有其他竞争对手，例如Otter，该公司一直向消费者和企业提供AI转录服务，并于六月推出了摘要工具。同时，Meta也宣布正在开发一个生成式AI驱动的翻译模型，能够识别近100种语言。这表明了在AI技术领域的竞争激烈，各家公司都在努力提供更智能、准确的语音处理和转录服务。

总体而言，AWS通过利用生成式AI技术不断优化其产品，不仅提升了多语种语音识别的能力，还使其在联系中心领域的解决方案更加智能和高效。这反映了云服务领域的竞争趋势，即通过整合先进的AI技术，不断提升产品性能，以满足用户对更高水平服务的需求。

（举报）

相关推荐

关键词：

语音

客服回应iPhone通话语音隔离：是“语音突显”功能

今日，一则关于iPhone通话降噪的讨论登上微博热搜，多位网友实测称开启特定功能后，即便身处嘈杂环境通话，对方也几乎听不到背景噪音。对此，苹果官方客服回应称，该功能实际为iOS15及以上系统内置的“语音突显”模式，需用户手动开启后方可生效。

iPhone通话降噪语音突显模式 iOS15功能
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

10月16日，火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构，具备深度语义理解能力，实现从文本朗读到情感表达的进化。对话式合成支持多轮交互，声音复刻仅需5秒即可还原音色。针对教育场景优化，复杂公式符号朗读准确率达90%，覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线，为OPPO、Keep等客户提供多场景语音服务。

语音合成声音复刻语义理解
微博CEO称iOS 26微信语音没声音网友同样中招以为手机坏了

微博CEO王高飞反映，iOS 26 Beta 1更新后微信语音通话首次接通无声音，需挂断重拨。多名网友反馈相同问题，甚至怀疑手机故障。微博智搜称，这是Beta系统的兼容性缺陷，已提供临时解决方案。iOS 26.1 Beta新增Apple Intelligence多语言支持及AirPods实时翻译功能，电话应用键盘采用全新液态玻璃设计。

iOS26b1 微信语音通话兼容性缺陷
逗哥配音平台：千款AI配音演员覆盖全行业，重新定义语音创作边界

随着内容创作行业蓬勃发展，高质量、多风格的配音需求日益增长。国内领先的AI语音技术平台——逗哥配音，凭借上千款精选音色和全面的行业适配能力，成为众多专业机构和个人创作者的首选方案。平台拥有超千款声音，覆盖不同年龄、声线和风格，可调参数达数十种，实现“千声千面”的语音多样性。其声音资源具备极强的行业适配性，适用于小说、影视解说、新闻播报、课程培训等多种场景，并针对ASMR、角色对话等专项优化。逗哥配音已整合文案提取、视频去水印等工具，打造一站式创作平台，显著提升内容产出效率。未来计划扩大声音库规模，深化垂直行业适配，并开放自定义音色训练功能，推动AI配音从技术辅助逐步进化为创意产业的核心生产力工具。

AI语音技术配音音色行业适配能力
Bing可以用语音搜索了微软增加语音搜索语音答复功能

据外媒MSPoweruser消息，微软日前宣布，Bing桌面版已经提供Bing语音搜索体验。用户可以使用此功能来搜索或提问，并从Bing快速获得音频回复。

Bing 语音搜索微软
近场语音与远场语音的区别是什么，哪些投影仪有远场语音功能

相信很多买了投影仪的朋友有过这样的体验，遥控器不见了，把家里翻得底朝天，却还是找不到，于是只能站在投影仪旁边摁按键摁得手疼。或者是，打开了某个应用，然后想回到主页，发现需要打开不同页面，才能找到想打开的应用，非常麻烦。啊，多么痛的领悟~其实，远场语音可以拯救你！近场语音与远场语音的区别是什么有人总是搞不清这二者的区别，其实区分很简单。近场语音，需要按着遥控器的语音键控制投影仪，在发出指令后仍需长按?

近场语音远场语音
谷歌基于英文语音搜索将推中文语音搜索

10月27日消息，谷歌中国工程研究院副院长林斌10月27日出席“2009年中国移动互联网与3G应用高峰论坛”时表示，谷歌将在英文语音搜索的基础上推出中文语音搜索功能。

谷歌中文语音搜索
华为申请语音支付相关专利提升语音支付安全性

2021年1月12日，华为技术有限公司公开了一项名为“一种语音支付方法和电子设备”的专利，该专利申请日期为2019年12月。据该专利摘要介绍，本申请提供了语音支付方法和电子设备。本申请实施例的语音支付方法，有助于提升语音支付的安全性，可以适用于人工智能终端等电子设备中。

华为语音支付支付
Ask Ziggy：通过语音进行搜索同时得到语音答复

Ask Ziggy是一家提供革命性新型语音识别技术与个人语音助理的公司，近日推出了WP7版Ask Ziggy，并获得最新一轮500万美元融资。目前，Ask Ziggy已经开发一款高级自然语音搜索引擎以及个人移动设备语音助理，还宣称自从今年推出以来已经处理超过300万个语音搜索。

Ask Ziggy 语音搜索

今日大家都在搜的词：

热文

3 天
7天

AWS语音转文本服务推出生成式AI技术支持100种语言

客服回应iPhone通话语音隔离：是“语音突显”功能

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

豆包语音合成模型 2.0 重磅升级，语义理解 + 情感演绎双突破

微博CEO称iOS 26微信语音没声音网友同样中招以为手机坏了

逗哥配音平台：千款AI配音演员覆盖全行业，重新定义语音创作边界

Bing可以用语音搜索了微软增加语音搜索语音答复功能

近场语音与远场语音的区别是什么，哪些投影仪有远场语音功能

谷歌基于英文语音搜索将推中文语音搜索

华为申请语音支付相关专利提升语音支付安全性

Ask Ziggy：通过语音进行搜索同时得到语音答复

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

天猫双11战报发布：苹果iPhone成交额破纪录

真我GT8发布：售价2899元起骁龙8至尊版双芯

华为鸿蒙HarmonyOS 6公测版开启推送

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

火车免费坐？12306今起又上新功能：积分可兑换车票

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

站长商机

AWS语音转文本服务推出生成式AI技术 支持100种语言

今日大家都在搜的词：

热文

站长商机

AWS语音转文本服务推出生成式AI技术支持100种语言