微软推出语音合成模型 NaturalSpeech2

2023-07-28 10:38 · 稿源：站长之家

站长之家（ChinaZ.com）7月28日消息:微软最近推出了一个名为NaturalSpeech2的语音模型。这个模型采用了“潜在扩散”式设计，在零样本语音合成方面表现非常出色。微软声称这个模型提供了“商业级”的语音/歌唱解决方案，可以为用户提供高质量、多样化的语音合成体验。

与传统的语音转文字（TTS）系统不同，微软的NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音，从而生成更完整的语音片段。这样做的优点是不会产生“缺乏感情”的“棒读”现象，即一字一顿地讲话。

微信截图_20230728103913.png

实验结果表明，NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律非常接近，并且在LibriTTS和VCTK测试集上的自然度（以CMOS为度量）与真人语音难以区分。

因此，NaturalSpeech2是一个非常强大的语音合成工具，可以广泛应用于各种应用，如语音助手、智能客服、虚拟歌手等。它的推出将推动语音合成技术的发展，为用户提供更加智能、自然的语音交互体验。

论文链接:

https://arxiv.org/abs/2304.09116

项目演示:

https://speechresearch.github.io/naturalspeech2/

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
吾爱大神超强AI智能语音合成工具Read Aloud 集成微软TTS语音合成技术

为大家介绍一款名为ReadAloud的Windows电脑版文字转语音工具，由吾爱大神制作。这款工具集成了微软的TTS语音合成技术，可以支持几十种语言进行语音合成转换，声音逼真度极高。这个工具对于那些不擅长说话或需要标准发音的人来说是一个福音，可以合成完美的语音来代替自己说话，特别适合懒人和外语学习者使用。

智能语音
革命性视频合成工具MAGVIT-v2 将视觉内容转化为大模型的标记

卡内基梅隆大学、Google研究以及乔治亚理工学院联合推出了一项名为MAGVIT-v2的视频标记工具，它成功地将图像和视频输入转化为大型语言模型可识别的标记。项目地址:https://magvit.cs.cmu.edu/MAGVIT-v2的独特算法让开发者可以实现令人惊叹的应用。MAGVIT-v2的发布，预示着视觉生成领域的一次重大突破。

视频合成
完全听不出来不是人！ChatGPT语音模型实测：语气、断句超真实

ChatGPT在25日正式推出了全新版本，现在可以看、听、说”了。新的版本支持语音进行操作和沟通，通过新型文本转语音模型和语音识别系统实现，允许用户进行语音对话，并且提供5种不同的语音选择，iOS和安卓APP都已经开放。这里还是提醒大家，如今在AI和互联网技术十分发达的时代，一定要擦亮双眼，避免受骗。
荐超13万个大模型！微软增强ChatGPT等开源模型，训练、推理能力

著名AI模型开源平台HuggingFace上有超过320，000个大模型，并且每天保持高速增长。据统计只有大约6，000个模型支持ONNX格式，但微软表示，实际上有超过130，000个模型支持该格式。在HuggingFace开源平台上还有10万个模型不支持ONNX格式，鼓励更多的技术研究机构、开源项目加入到ONNX社区，以通过ONNXRuntime增强开发效率。
荐AI视野：图文混合创作大模型浦语灵笔发布；微软GitHub Copilot每个用户倒赔20美元；AI天才杨植麟交卷大模型产品Kimi Chat；ChatGPT 移动应用9月收入创纪录

清华AI杨植麟创业公司MoonshotAI发布KimiChat，支持20万字长文本，解决大模型上下文窗口长度问题，旨在打造C端SuperApp。目前Claude支持最大长文本为100kGPT-4则是32k。Fotor最新推出的全套AI工具包括AI文字生图、AI以图生图、AI扩图、AI背景创作、AI换脸、AI编辑、智能消除和人像编辑等功能。

浦语灵笔
ChatGPT推出语音和图像多模态功能预计未来两周内上线

OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。
这次，Playrix要在合成赛道再造一个“梦幻花园”？

7月，data.ai公布《2023年度发行商大奖》，Playrix位列全球第七，这个成绩在休闲游戏厂商中依旧一骑绝尘，但排名相较上一年却下滑了3位。《2023年度发行商大奖》|图源:data.ai说来也难怪，擅长长线运营的Playrix这几年给人的大致印象基本是在“吃老本”，公司的营收主力还是几款早年间打造的三消产品，最近一款小有起色的非三消品类的纸牌游戏，用的还是经典产品《Fishdom》的IP。《MergeHearts》是否能凭借玩法创新帮助Playrix在合成品类“分一杯羹”，也只能上线之后见分晓了。

Playrix
融资1亿美元的类ChatGPT模型开源啦！可商用，8个模型

「AIGC开放社区」为大家介绍了融资1亿美元的生成式AI平台Writer。该企业能在短短3年时间获得1.26亿美元总融资成为ChatGPT的主要竞争对手之一，与其精湛的技术密不可分，同时充分证明其模型有成功的应用案例并获得资本、用户的认可。Palmyra非常值得那些希望将大语言模型实现商业化的开发者们，研究其模型架构和功能借鉴其成功经验。

Palmyra ChatGPT AI头条
ChatGPT开口说话了：五种不同语音语气更像真人

OpenAI宣布给聊天机器人ChatGPT增加了语音交谈的功能。这将给谷歌、苹果等巨头在智能语音助手领域带来冲击。OpenAI工作人员表示，他们已经测试了语音和图像功能，并增加了安全措施，以确保机器人对敏感话题作出适当的回应。
Wayve推出GAIA-1 9B，通过生成合成视频训练自动驾驶

英国初创公司Wayve在2023年6月发布了GAIA-1，这是一款为自动驾驶车辆培训数据设计的生成式模型。GAIA-1的最新版本，GAIA-19B，已经取得了令人瞩目的进展。这种基于文本的逻辑可以增加车辆的安全感，使人工智能的决策不再像一个“黑盒子”。

Wayve GAIA-19B 自动驾驶

今日大家都在搜的词：

热文

3 天
7天

微软推出语音合成模型 NaturalSpeech2

今日大家都在搜的词：

热文

站长商机