首页 > 业界 > 关键词  > 微软最新资讯  > 正文

微软 Azure AI 文本转语音功能添加男声和更多语言支持

2023-08-09 14:28 · 稿源:站长之家

站长之家(ChinaZ.com) 8月9日消息:在当今互联互通的世界中,语言障碍对于有效沟通来说是一个重要挑战。然而,随着人工智能和自然语言处理的快速发展,我们正在见证一系列开创性解决方案,彻底改变了我们与技术互动的方式。

微软

微软提供的强大的基于云端的 Azure AI Text to Speech 服务处于这一转型的前沿。今天,微软发布博客文章,宣布 Azure AI Text to Speech 的新扩展。

除了现有女性声音(JennyMultilingual)外,微软宣布推出男性声音(RyanMultilingual),作为多语种产品组合中新加入部分。这个新增不仅给用户提供更多选择,还使他们能够创建包容和多样化用户体验。

通过引入男性声音,Azure Text to Speech 确保技术适应不同的环境和用户偏好,赋予开发者设计能够与更广泛终端用户产生共鸣的解决方案的能力。

此外,这两个新声音都具备自动语言预测功能,可以根据输入文本自动识别语言并相应调整语音输出,无需手动标记。

Azure Neural TTS 推出的 JennyMultilingual 和 RyanMultilingual,在美国东部、西欧和东南亚三个地区支持 41 种语言和口音进行预览。要探索这些新功能,只需在 Azure 上注册语音服务并访问 Speech Studio Voice Gallery 即可。

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 火山引擎推出豆包·语音播客模型:文本秒变双人对话播客,5 秒生成热点音频!

    5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。

  • 三星AI神系列洗护产品:给宠物更多陪伴 给家人更多关爱

    三星推出AI神黑钻热泵洗烘旗舰和衣物护理机,针对养宠家庭衣物清洁难题提供创新解决方案。洗烘一体机采用AI智能感应技术,能自动调节水位和洗涤剂用量,热泵烘干技术通过循环热风快速恢复衣物蓬松;配备冷凝器自清洁功能,有效清除绒毛污垢。衣物护理机采用双气流+双蒸汽系统,19分钟快速去除异味、浮尘和螨虫,内置香氛盒增添宜人芳香。两款产品均具备大容量设计,洗烘机18kg洗涤+15kg烘干容量可一次性处理全家衣物,护理机最多可同时处理9件衣物。创新科技既解决宠物毛发、异味等清洁难题,又减少隐形家务负担,让人宠共处时光更温馨长久。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI语音迎来「特斯拉时刻」,一条工作流「吃掉」全球百亿市场

    OpenAI推出新一代语音模型GPT-4o系列,包括语音转文本和文本转语音功能,开发者可通过API接入。趣丸科技推出的"趣丸千音"平台依托MaskGCT模型,在语音相似度、质量和稳定性上取得突破,实现视频翻译全流程自动化,日处理量超1000分钟,效率提升10倍。该技术已应用于短剧出海、新闻视频多语言分发等场景,使译制周期从30天缩短至3天,海外用户增长300%。AI语音技术正�

  • 如何用豆包音乐生成功能创作AI歌曲?

    本文介绍如何利用豆包AI工具进行音乐创作。用户可通过APP或网页端(https://www.doubao.com/chat)使用该功能,按照固定句式输入创作需求:包括歌曲主题、音乐风格(如民谣、流行)、表达情绪(快乐、怀旧等)及音色选择(男声/女声)。系统会根据指令自动生成歌词并配乐,用户可即时查看歌词内容和播放生成的音乐。操作流程简单:打开豆包→选择音乐生成功能→填写创作指令→提交等

  • 苹果 AI 太落伍?他们需要从对手那里“复制”这三个功能

    说苹果的“Apple Intelligence”计划发布得一团糟,实在算是轻描淡写。不过,我仍然抱有希望:再过几周,我们或许能看到一些新的功能……

  • 真AI翻译耳机来了,金运灵动环A9耳机重塑跨语言交流新体验

    金运灵动环A9耳夹式耳机通过AI大模型技术颠覆传统翻译设备,实现百种语言实时互译,0.7秒极速响应,准确率达98%。产品突破四大翻译困境:解决传统工具延迟高(1.5秒)、专业术语误译(准确率仅80%)、操作繁琐(72%用户放弃深度沟通)、功能单一等问题。其创新骨传导技术实现"耳听即译"的无缝体验,支持会议录音转写、AI写作辅助等扩展功能,以百元价位提供千元级专业翻译设备的性能。对比传统翻译器,该产品将翻译延迟降低20%,误译率控制在0.3%,且重量仅5克,解放用户双手。典型案例显示,用户与外国客户沟通时,设备能精准处理专业术语和俚语(如将"炸鸡啤酒"关联韩剧文化梗)。产品重新定义智能翻译标准,让跨语言交流从"手动操作"进化为"自然对话",证明科技普惠的本质是让高端功能触手可及。(140字)

  • 豆包上线视频通话功能:支持实时视频问答

    豆包官方微信公众号今日发文,宣布豆包App上线实时视频通话功能,用户在电话界面开启视频画面后,豆包能基于真实场景与用户进行实时问答互动,模型能够融合视觉与语言输入,进行综合的深度思考和创作。 据介绍,豆包本次升级基于视觉推理模型,支持联网搜索工作、生活和学习遇到的问题,随时可以和豆包视频对话。 官方表示,用户将豆包App更新到最新版后,打开�

  • 中国移动推出AI速记功能:自动将通话转为文字记录

    快科技5月17日消息,在日常生活中,不少人养成了打电话录音的习惯。然而即便有录音,后期想要回顾其中的内容时,往往也会面临诸多不便。针对这一困扰,中国移动推出了极具实用性的AI速记功能。它能够自动将通话内容精准地转化为文字记录,还能贴心地为用户整理出摘要,极大地提高了信息获取的便利性。这项备受瞩目的功能,诞生于最近刚刚召开的移起AI2025年中国移