首页 > 业界 > 关键词  > AI语音最新资讯  > 正文

微软升级Azure AI语音服务 推出9种更真实的AI语音

2024-04-02 09:42 · 稿源:站长之家

站长之家(ChinaZ.com)4月2日 消息:微软近期对其Azure AI语音服务进行了重大升级,推出了9种新的更真实的AI语音,旨在为用户带来更加自然和沉浸式的对话体验。这次升级的核心是引入了零样本学习(Zero-shot)的文本到语音(TTS)模型,这些模型在提高合成语音自然度的同时,更好地模仿了提示语音中的特征。

Azure AI语音服务的Personal Voice功能通过这些新模型,使得个性化语音的创建变得快速而简单。用户只需提供一小段语音样本,即可在几秒钟内生成能模仿其独特语音特征的AI语音。这种高度自然的语音输出,不仅流畅自然,还能精准捕捉到人类语音的细微差别,如语调、节奏和情感表达,极大地提升了合成语音的生动性和真实感。

image.png

更新体验:https://top.aibase.com/tool/azure-ai-studio-yuyinfuwu

微软的这项服务支持超过400种神经语音,覆盖了140多种语言和地区,使得文本到语音的转换不仅快速,而且无障碍。此外,通过自定义神经语音功能,用户可以轻松为其业务创建独特的品牌声音,无论是个人化应用还是跨语种配音,都能满足需求。

Azure AI语音服务的应用场景非常广泛,包括个性化的语音助手、沉浸式游戏体验、多语言配音、媒体和娱乐内容的创作,以及语音翻译等。这些新的Zero-shot TTS模型不仅适用于个人化应用,也能为需要实时互动的场景提供支持。

微软还特别强调了负责任的AI使用,对于Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,以确保技术的负责任部署和使用,保护个人和社会的权利。

此外,微软还发布了9种针对对话优化的AI语音,这些语音覆盖了多种语言,为用户提供了更多的选择和多样性。这些语音在阅读对话和非正式文本时听起来更自然、更引人入胜,甚至包括笑声和填充停顿等插入语,为虚拟对话增添了人性化的触感。

新的通用可用(GA)语音包括多种语言选项,如英语、德语、法语和中文等,这些语音都经过了针对对话风格的优化,扩展了微软在91种语言及其变种中传达内容的能力,体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。

用户可以通过Azure AI语音服务的在线语音库查看详细介绍和演示效果,并通过更新体验链接进一步探索这些新功能。微软的这次升级,无疑将为各种业务场景提供更加丰富和真实的语音交互体验。

举报

  • 相关推荐
  • 京东AI付正式上线!支持语音快捷安全支付

    京东今日正式宣布入局AI支付领域,推出京东AI付”,用户凭借语音即可便捷、安全支付。 据悉,该功能搭载京东JoyAI大模型能力,适用于AI助手、智能终端等多种软硬件载体。 用户通过简单的语音指令即可完成支付全流程,例如在支付过程中直接语音切换绑定的银行卡。

  • 浏览器端语音交互指南:如何用低代码快速集成AI语音智能体?

    本文探讨了AI时代语音交互技术的发展与应用。文章指出,AI正深刻改变生产生活方式,语音输入需求快速增长,尤其在需要双手作业的场景中,语音交互能提供无缝高效的工作流程。文章以活字格低代码开发平台为例,详细介绍了如何在浏览器端实现实时语音交互,包括通过麦克风权限获取、语音识别模型实时转写文本、并与AI大模型进行智能对话的完整方案。该方案不仅提升了交互效率和准确性,还保障了用户隐私安全。最后,文章展望了语音交互在智能家居、医疗健康、教育等领域的广泛应用前景,同时也指出了隐私保护、准确性提升和无障碍访问等面临的挑战。

  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • AI这把火,也该烧到网易了

    网易2025年财报显示,全年总营收首次突破千亿,净利润达373亿元,现金储备增至1635亿元,业绩亮眼。但第四季度营收增长乏力,游戏收入增速放缓至3.4%,主要由于手游新品断档、依赖老游戏。市场担忧其缺乏新爆款、利润增长靠“省钱”及AI策略相对保守。尽管网易强调以AI提升研发与运营效率,但股价在财报后下跌,反映投资者对其长期增长动力及AI浪潮下竞争力的疑虑。

  • 微信电脑版支持语音输入了:支持文字整理 方言及中英文混合识别

    腾讯公关总监张军今日宣布,微信PC端4.1.7版本正式推出语音输入功能,目前正通过内测版向全体用户逐步推送。这项被用户称为"办公神器"的新功能,不仅支持全局调用,更通过智能优化技术将口语转化为规范书面语,重新定义了电脑端文字输入方式。 据实测体验,用户只需点击聊天框左侧麦克风图标或按下Ctrl+Win组合键即可激活语音输入,系统实时将语音转化为文字

  • AI手机的终局,“读屏”还是“对话”?

    最近科技圈的两场“AI秀”先后刷屏。 在大洋彼岸,当地时间1月12日,苹果和谷歌宣布合作,要给Siri用上谷歌的Gemini。但苹果的做法,不是直接让Gemini操作手机上的App,而是用户说什么,Siri先理解意图,然后去调用相应的应用。换句话说,AI只是个“调度员”。这套操作,很苹果。 另一边,国内的情况就热闹得多。字节跳动的豆包AI手机一度刷屏,AI可以帮你打车、购物、订

  • 打造一站式AI服务中心,这次淘宝用AI重构服务

    当一件三年前购买的冲锋衣被用户寄回,破损的口子,意味着一段户外旅程的终结。大多数商家看到的,或许是一笔需要计算的维修成本。但专业户外品牌拓路者看到了不同的东西——一个用服务兑现品牌承诺,将一次性的维修成本,转化为消费者终身信任的机会。 他们通过AI知识库匹配合适的面料批次,由老师傅修复如初,当衣服寄回时,用户留言:“我以为品牌承诺止于下

  • 2026销售商机管理AI工具推荐:优选综合型AI工具 DingTalkA1

    根据国际数据公司(IDC)2025年发布的《未来销售白皮书》显示,到2026年,全球将有75% 的销售组织面临 "数据富集而洞察贫乏" 的困境 —— 海量商机相关互动数据无法有效转化为可落地的销售策略。哈佛商业评论分析服务部也指出,跨渠道、跨形态的商机沟通(线下会议、线上通话、即时消息等)易形成 "信息孤岛",造成客户画像碎片化、销售动作与商机真实需求脱节。传统工具

  • AI日报:字节发布Seedream5.0Lite;小红书不标AI将限流;美图开拍首批接入Seedance 2.0大模型

    本期AI日报涵盖多项重要动态:字节跳动发布具备视觉推理与实时联网能力的图像创作模型Seedream5.0Lite;小红书要求AI生成内容须显著标识;美图工具“开拍”接入Seedance 2.0大模型以提升视频创作效率;OpenAI在ChatGPT中上线广告业务以应对成本压力;OpenAI与Cerebras合作推出专为实时编程优化的GPT-5.3-Codex-Spark;蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T;Google发布在编程与科研领域实现突破的Gemini 3 Deep Think;同程旅行全面接入腾讯元宝,通过AI实现秒级行程规划与预订。

  • 健康福成顶流,AI垂直赛道的含金量还在提升

    全民AI运动还在进行时。 腾讯元宝的10亿红包雨进程过半,阿里千问免费请客计划也在继续,大家还在用支付宝扫福集福。今年五福变六福,蚂蚁AI健康应用阿福为大家新增健康福以及红包。除此之外,字节、百度等互联网公司也在花式参与其中。 种种迹象表明,今年春节的AI含量绝对爆表,也是大厂争夺流量最为紧张的时刻。而从各家分解动作中,我们发现两个趋势: ChatGPT�

今日大家都在搜的词:

热文