首页 > 业界 > 关键词  > 正文

微软推出语音合成模型 NaturalSpeech2

2023-07-28 10:38 · 稿源:站长之家

站长之家(ChinaZ.com)7月28日 消息:微软最近推出了一个名为NaturalSpeech2的语音模型。这个模型采用了“潜在扩散”式设计,在零样本语音合成方面表现非常出色。微软声称这个模型提供了“商业级”的语音/歌唱解决方案,可以为用户提供高质量、多样化的语音合成体验。

与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音,从而生成更完整的语音片段。这样做的优点是不会产生“缺乏感情”的“棒读”现象,即一字一顿地讲话。

微信截图_20230728103913.png

实验结果表明,NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律非常接近,并且在LibriTTS和VCTK测试集上的自然度(以CMOS为度量)与真人语音难以区分。

因此,NaturalSpeech2是一个非常强大的语音合成工具,可以广泛应用于各种应用,如语音助手、智能客服、虚拟歌手等。它的推出将推动语音合成技术的发展,为用户提供更加智能、自然的语音交互体验。

论文链接:

https://arxiv.org/abs/2304.09116

项目演示:

https://speechresearch.github.io/naturalspeech2/

举报

  • 相关推荐
  • 吾爱大神超强AI智能语音合成工具Read Aloud 集成微软TTS语音合成技术

    为大家介绍一款名为ReadAloud的Windows电脑版文字转语音工具,由吾爱大神制作。这款工具集成了微软的TTS语音合成技术,可以支持几十种语言进行语音合成转换,声音逼真度极高。这个工具对于那些不擅长说话或需要标准发音的人来说是一个福音,可以合成完美的语音来代替自己说话,特别适合懒人和外语学习者使用。

  • 革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

    卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具,它成功地将图像和视频输入转化为大型语言模型可识别的标记。项目地址:https://magvit.cs.cmu.edu/MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。MAGVIT-v2的发布,预示着视觉生成领域的一次重大突破。

  • 完全听不出来不是人!ChatGPT语音模型实测:语气、断句超真实

    ChatGPT在25日正式推出了全新版本,现在可以看、听、说”了。新的版本支持语音进行操作和沟通,通过新型文本转语音模型和语音识别系统实现,允许用户进行语音对话,并且提供5种不同的语音选择,iOS和安卓APP都已经开放。这里还是提醒大家,如今在AI和互联网技术十分发达的时代,一定要擦亮双眼,避免受骗。

  • 超13万个大模型微软增强ChatGPT等开源模型,训练、推理能力

    著名AI模型开源平台HuggingFace上有超过320,000个大模型,并且每天保持高速增长。据统计只有大约6,000个模型支持ONNX格式,但微软表示,实际上有超过130,000个模型支持该格式。在HuggingFace开源平台上还有10万个模型不支持ONNX格式,鼓励更多的技术研究机构、开源项目加入到ONNX社区,以通过ONNXRuntime增强开发效率。

  • AI视野:图文混创作大模型浦语灵笔发布;微软GitHub Copilot每个用户倒赔20美元;AI天才杨植麟交卷大模型产品Kimi ChatChatGPT 移动应用9月收入创纪录

    清华AI杨植麟创业公司MoonshotAI发布KimiChat,支持20万字长文本,解决大模型上下文窗口长度问题,旨在打造C端SuperApp。目前Claude支持最大长文本为100kGPT-4则是32k。Fotor最新推出的全套AI工具包括AI文字生图、AI以图生图、AI扩图、AI背景创作、AI换脸、AI编辑、智能消除和人像编辑等功能。

  • ChatGPT推出语音和图像多模态功能 预计未来两周内上线

    OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。

  • 这次,Playrix要在合成赛道再造一个“梦幻花园”?

    7月,data.ai公布《2023年度发行商大奖》,Playrix位列全球第七,这个成绩在休闲游戏厂商中依旧一骑绝尘,但排名相较上一年却下滑了3位。《2023年度发行商大奖》|图源:data.ai说来也难怪,擅长长线运营的Playrix这几年给人的大致印象基本是在“吃老本”,公司的营收主力还是几款早年间打造的三消产品,最近一款小有起色的非三消品类的纸牌游戏,用的还是经典产品《Fishdom》的IP。《MergeHearts》是否能凭借玩法创新帮助Playrix在合成品类“分一杯羹”,也只能上线之后见分晓了。

  • 融资1亿美元的类ChatGPT模型开源啦!可商用,8个模型

    「AIGC开放社区」为大家介绍了融资1亿美元的生成式AI平台Writer。该企业能在短短3年时间获得1.26亿美元总融资成为ChatGPT的主要竞争对手之一,与其精湛的技术密不可分,同时充分证明其模型有成功的应用案例并获得资本、用户的认可。Palmyra非常值得那些希望将大语言模型实现商业化的开发者们,研究其模型架构和功能借鉴其成功经验。

  • ChatGPT开口说话了:五种不同语音 语气更像真人

    OpenAI宣布给聊天机器人ChatGPT增加了语音交谈的功能。这将给谷歌、苹果等巨头在智能语音助手领域带来冲击。OpenAI工作人员表示,他们已经测试了语音和图像功能,并增加了安全措施,以确保机器人对敏感话题作出适当的回应。

  • Wayve推出GAIA-1 9B,通过生成合成视频训练自动驾驶

    英国初创公司Wayve在2023年6月发布了GAIA-1,这是一款为自动驾驶车辆培训数据设计的生成式模型。GAIA-1的最新版本,GAIA-19B,已经取得了令人瞩目的进展。这种基于文本的逻辑可以增加车辆的安全感,使人工智能的决策不再像一个“黑盒子”。

今日大家都在搜的词: