首页 > 业界 > 关键词  > 语音最新资讯  > 正文

AWS语音转文本服务推出生成式AI技术 支持100种语言

2023-11-28 10:54 · 稿源:站长之家

要点:

  • 亚马逊的 AWS 公司宣布其语音转文本服务 Amazon Transcribe 现在由生成式人工智能(Generative AI)技术驱动,能够识别并转录来自100种语言的语音。

  • Amazon Transcribe 使用自监督算法通过数百种语言的数百万小时未标记音频数据进行训练,确保不同语言和口音的准确性。AWS强调在训练数据中平衡使用频率较低的语言,以确保它们与常用语言一样准确。

  • 提升语言识别技术不仅改进了Amazon Transcribe的准确性,还扩展到了其Call Analytics平台,该平台通过生成式人工智能模型对客户与代理之间的交互进行摘要,减少了报告创建的后续工作。

亚马逊的 AWS 公司宣布,其语音转文本服务 Amazon Transcribe 现在采用生成式人工智能技术,能够识别并转录来自100种语言的语音,相较于2022年底的79种语言有了显著的提升。据AWS称,Transcribe通过对超过100种语言的数百万小时未标记音频数据进行自监督训练,使用算法学习不同语言和口音的语音模式,且在训练中确保了频率较低的语言得到适当的平衡。此举不仅提高了Transcribe在多语种上的准确性,还推动了其Call Analytics平台的进步,该平台通过生成式AI模型总结了代理和客户之间的互动,降低了后续报告创建的工作量。

音频 人工智能

图源备注:图片由AI生成,图片授权服务商Midjourney

与此同时,AWS还宣布了对其Amazon Personalization产品的额外功能,该产品允许客户根据先前的活动向用户推荐产品或显示推荐列表。新功能Content Generation能够撰写与推荐列表主题相关的标题或电子邮件主题行。这进一步展示了AWS在利用AI技术提升其云服务产品功能方面的努力。

虽然Amazon Transcribe是AI驱动的语音转文本服务中的一员,但市场上也有其他竞争对手,例如Otter,该公司一直向消费者和企业提供AI转录服务,并于六月推出了摘要工具。同时,Meta也宣布正在开发一个生成式AI驱动的翻译模型,能够识别近100种语言。这表明了在AI技术领域的竞争激烈,各家公司都在努力提供更智能、准确的语音处理和转录服务。

总体而言,AWS通过利用生成式AI技术不断优化其产品,不仅提升了多语种语音识别的能力,还使其在联系中心领域的解决方案更加智能和高效。这反映了云服务领域的竞争趋势,即通过整合先进的AI技术,不断提升产品性能,以满足用户对更高水平服务的需求。

举报

  • 相关推荐
  • 大模型技术赋能声音创作:逗哥配音引领AI语音合成新浪潮‌

    逗哥配音作为国内领先的AI配音平台,凭借自主研发的语音合成大模型技术,已服务超千万创作者,累计生成音频量突破270亿次。其核心技术突破包括:1)支持40种语言,语音质量MOS分提升0.25,拟人度超83%;2)首创"AI分角功能",将多角色配音效率提升90%以上;3)建成覆盖近千款发音人的全球声库,包含方言、外语及影视角色音;4)创新"真人声纹+AI增强"模式,

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • OPPO ColorOS宣布升级无网畅聊 没网也能发图片、语音

    日前,OPPO ColorOS宣布无网畅聊全新升级,在无网状态下,不仅能打语音电话,还能发送图片、文字和语音。 使用路径:打开设置”-选择移动网络”-开启无网畅聊”,选择你想联系的欧加手机-发送消息。 据了解,无网畅聊是一项利用蓝牙技术解决近场通信问题的功能。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • 科密声盾「防录音会谈室」:构建空间级语音保密新范式

    本文介绍了"防录音会议室"相比传统防护手段的核心价值:通过中型会议及设备组合,实现空间大小与防护强度的精准匹配。专业版采用矩阵式分布实现大型空间均匀覆盖,既满足政企合规要求,又能让会谈双方专注沟通本身。该系统为政务级涉密场景(如涉密信息交流室、信访接待室等)提供隐私保护解决方案,通过提升隐私保护等级增强客户信任感。"防录音会�

  • 小米首款小尺寸手表!小米手表S4 41mm微信语音电话提醒内测招募

    日前,小米官方在小米社区宣布,小米手表S4 41mm开启内测特邀用户招募,新增微信语音电话提醒,重要通话不再错过,无需频繁查看手机。 报名时间:8月11日-8月13日 体验时间:8月14日-8月20日 招募人数:100人。 新增功能及优化如下: 新增微信语音电话提醒,重要通话不再错过,无需频繁查看手机; 优化心脏健康结果提示,数据解读更清晰,守护健康更贴心;

  • 苹果新功能曝光!Siri可通过语音指令操控第三方APP:2026年上线

    苹果公司正在积极开发一套全新的AI系统,计划通过Siri取代用户在智能手机上的手动操作流程。 这一创新功能将纳入新的系统架构App Intents”,使Siri能够在多款第三方应用中替用户执行指令,用户只需通过语音下达指令即可完成任务。 据彭博社报道,此次 AI 升级将引入生成式AI技术,显著提升Siri对上下文的理解能力,甚至可以读取屏幕内容,从而增强交互体验。 新功能预�

  • AI语音从“输出”到“输入”,资本在用千万美元押注什么?

    7月16日,语音输入创企 Willow Voice 宣布完成420万美元天使融资,由 YC 领投;而就在几天前,6月25日另一家语音输入创企 Wispr Flow 也宣布完成了3000万美元 A 轮融资。 此前,我们一直在观察 AI 语音赛道,但能拿到融资的基本都是做语音合成,也就是“输出”。比如赛道头部的 ElevenLabs,在今年1月份,完成了 C 轮2.5亿美元融资,估值达到30亿美元以上。 但最近的2笔融资,貌似在释�

今日大家都在搜的词: