首页 > 传媒 > 关键词  > 正文

出门问问TTS引擎全面升级MeetVoice Pro,轻量数据极速克隆,情感效果媲美真人

2024-02-02 16:21 · 稿源: 站长之家用户

随着文本大模型技术的崛起,语音合成领域正迅速适应这一变革,基于大模型的语音合成技术因其卓越性能而成为行业趋势。

尽管传统语音合成在音质和韵律方面已高度仿真,但在有声书、自然对话等复杂场景的情感与语调细节上仍有不足。大型语言模型(LLM)的兴起为弥补这些差距提供了新的可能性,引领语音合成技术向更真实、更自然的交互体验迈进。

自出门问问发布第 一代TTS引擎起,历经多次迭代,语音合成效果不断趋近“以假乱真”,媲美真人。

出门问问的语音合成技术不断迭代

自2015年推出初代TTS引擎以来,出门问问通过不断迭代,显著提升了语音合成的真实度。2019年8月,我们发布了先进的第四代引擎MeetVoice,集成至其产品线和ToB服务,并在「魔音工坊」中实现上千款声音的大规模应用,获得广泛好评。面对短视频市场的快速增长和用户对高仿真语音的需求,我们不断优化MeetVoice引擎,增添了包括停顿调节、高清音质、语调控制等多项功能。

现在,出门问问的自研大模型「序列猴子」取得显著突破,其以语言为核心的能力体系,涵盖“知识、对话、数学、逻辑、推理、规划”六个维度。特别的是,该模型拥有优秀的跨模态知识迁移能力,能够将语言模型所涵盖的常识知识有效转化应用于其他非语言模态的模型当中。基于此技术,开发团队利用前沿的文本大模型技术构建了一套先进的语音合成系统——MeetVoice Pro,即出门问问第六代TTS引擎。该系统基于序列猴子的文本模型能力,通过对海量语音样本的深度学习训练,能够产生极富自然感和表现力的合成声音,使AI配音的效果已然接近真实人声的水准。

「序列猴子」赋能语音合成引擎

为了深入理解我们所开发的新一代语音合成引擎的技术要点,让我们逐步梳理其核心架构。

01语音token化

首先,我们需解决的关键问题是将语音信号有效转化为机器可处理的形式。不同于文本数据的离散特性,语音信号呈现为一种连续波形,这为语音合成引擎带来了初始的挑战。针对这一难题,我们采纳了行业内广泛认可的Encoder-Decoder架构策略,以实现对连续语音信号的有效离散化处理。通过本架构,语音数据首先被分解为一系列离散单元,即所谓的“语音tokens”。这一过程不仅为后续的语音生成打下了坚实基础,同时也保证了合成语音的自然度和流畅性。

语音编解码器架构图

02对文本及语音token进行建模

在进行文本和语音token的建模过程中,我们自研的大型序列模型「序列猴子」扮演了重要角色。该模型利用其先进的文本基座(underlying textual foundation)能力,实现了对多音字、韵律和上下文关系的深入理解和准确模拟,进而将这些文本属性有效地映射(或迁移)到语音领域。通过这种方式,「序列猴子」不仅提高了语音token的生成质量,也增强了模型对复杂语音现象的处理能力。

基于大模型「序列猴子」的语音合成框架

三个优势 促成真实人声感受

在新框架的支持下,本次的语音合成技术呈现出了三个突出的优势,在真实性方面获得了极大的提升。

01自动调节情感和韵律

新技术可以在讲述一个悲伤的故事时降低音调,增加柔和度,或者在分享兴奋的新闻时提升语速,加强语气的振奋感。如此智能的调节,让合成语音的体验更加自然、富有表现力,仿若置身于真实的人类对话之中。

02声音克隆仅需数秒

声音克隆变得异常有效,它能够快速学习仅数秒钟的音频样本,生成高度逼真的音频,这样一来,传统耗时的录音过程和训练过程将成为历史。例如,我们能够用埃隆·马斯克和史蒂夫·乔布斯短暂的原声录音,仅需等待数秒,轻而易举地克隆出非常相似的声音。

03跨语种音色迁移

该技术具备强大的跨语言能力,已实现将不同语言的音频无缝转换为同音色中文或英文,小语种发音者能够流畅地使用中文或英文进行交流。比如,我们可以让一位母语为泰语的女孩使用自己的音色来流利地用英文做自我介绍,用中文背诵古诗。

好发音人 适用多个场景

在众多已上线的发音人中,我们经过优中选优,甄选出一批既独特又品质出众的声音,推荐给广大内容创作者使用。

01有声书

02影视解说

03其他特色

限时免费 体验有礼

1月31日至2月28日期间,「魔音工坊」推出特别活动,好发音人系列将对所有SVIP会员免费开放,非会员用户可使用CDK兑换码 AIGC2024 免费获得1天SVIP会员进行体验。欢迎点击以下小程序使用相应发音人。

您在体验过程中遇到任何问题或意见,均可在公众号后台即时反馈,我们将随机赠送参与者1天的SVIP会员体验资格。

目前,出门问问 AIGC 产品累计服务的用户数量已超1200万,注册用户数量超800万,其中付费的用户数量超60万。据灼识咨询行业报告,出门问问是亚洲起步最早、收入规模最 大的专注于生成式 AI 的人工智能公司。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Ongkanon:提升您每天的对话体验

    Ongkanon是一款智能对话AI助手,提供有意义且上下文相关的对话体验。它能够自然地与您交谈,就像与亲密的朋友聊天一样。Ongkanon会根据您的偏好进行个性化定制,还能记住以前对话的上下文,以便进行更连贯、有意义的交互。

  • X:生成你的AI头像视频!

    X Me是一个AI头像视频生成工具,通过输入文本即可快速生成个性化的AI头像视频。它使用轻量级的AI模型,无需复杂的训练过程,快速生成逼真的数字人物视频。X Me提供多种AI名人头像供用户选择,并支持将用户自己的面部特征和声音克隆到生成的头像视频中。用户可以根据自己的喜好和需求,自由创造个性化的AI头像视频。

  • Portrait Studio:AI生成专业商务头像

    Portrait Studio Pro是一款AI生成的专业商务头像服务。用户只需上传几张照片,我们的AI引擎将生成完美的商务照片,适用于LinkedIn等场景,无需进行实际拍摄。价格实惠,仅需191美元起,支持14天退款保证。

  • InterviewQueue:在线评估软件平台

    InterviewQueue是一个在线评估工具,帮助您轻松筛选候选人。通过ChatGPT集成,这个在线评估软件平台将帮助您创建逻辑评估,为您的组织找到理想的候选人!

  • Skyla:您的 Shopify 商店的 ChatGPT 客服聊天机器人

    Skyla 是专为 Shopify 商户打造的最佳客户支持聊天机器人。通过 ChatGPT 提供先进的 AI 动力,为您的商店提供最佳的客户支持体验。

  • Avatic:定制3D头像,提升在线身份

    Avatic 3D Avatars是一个定制3D头像服务,适用于游戏、社交和职业平台。通过将您的照片转换为个性化的半逼真3D头像,提升您的在线身份。无论您是为了保护隐私还是为了给您的在线形象添加独特的个性,我们的定制3D头像服务都是您一直在寻找的解决方案。我们的头像由经验丰富的3D艺术家使用Blender和Photoshop制作,呈现出独特的玩具感。我们提供100%的退款保证和无限次的修改,以确保您对最终成品完全满意。

  • Devika AI:开源AI软件工程师

    Devika AI是一个开源的AI软件工程师,可以理解高级人类指令,将其分解为步骤,研究相关信息并生成相应代码。它使用Claude 3、GPT 4、GPT 3.5和Local LLMs via Ollama。

  • Voxal.AI:提升销售和支持,无代码AI Chatbot

    Voxal AI是一款强大的AI Chatbot,通过展示产品、回答问题、生成潜在客户等方式,提升销售和支持。使用最新的AI技术,包括GPT 3、GPT 4和Mixtral,无需编码即可快速创建定制的Chatbot。适用于SaaS、Shopify、WordPress等平台,支持产品推荐和销售增长。提供高级分析功能,支持95种语言。快速部署,定制个性化外观和交互,轻松集成到网站中。

  • TTSVox:免费的在线文字转语音工具

    TTSVox是一款免费的在线文字转语音工具。它提供高质量、自然流畅的声音,适用于教育、专业和无障碍等各种场景。现在就来试试,让您的文字变得生动起来!

  • AI Elon:与世界上最伟大的AI创业者交谈

    AI Elon是与世界上最伟大的AI创业者对话的平台。用户可以获取关于任何想了解的事情的意见、建议、想法、反馈等等。

  • Resume Photo AI:AI生成专业人像照片

    专为职场人士打造的AI生成的专业人像照片。使用我们的AI技术,轻松获得专业人像照片,非常适合LinkedIn个人资料、简历或任何职业用途。

  • DeepAI:智能工具,激发创意无限

    DeepAI是一个提供多种人工智能工具的网站,包括AI视频生成器、AI图像生成器、AI图像编辑器和AI角色聊天等。用户可以利用这些工具将静态图片和文本提示转换成简短的视频动画,或者通过输入提示来生成图像。DeepAI的AI图像编辑器允许用户快速编辑图片,而AI角色聊天则可以与各种角色进行互动。此外,还有去除背景和给黑白照片上色的功能。DeepAI提供PRO会员服务,享受无广告体验、私有图片存储和API访问等特权。

  • tawk.to:100%免费的网站在线聊天软件

    tawk.to是一款完全免费的在线聊天软件,它允许网站所有者监控并与访问者进行实时聊天,响应支持票据,使用CRM组织联系人,并创建帮助中心以增强客户自助服务的能力。tawk.to的主要优势在于其易用性、安全性以及无需任何费用即可使用。此外,它还提供了AI Assist功能,允许用户训练一个完全自动化的AI驱动聊天机器人。

  • WaveAI:AI驱动的高级照片编辑器

    Wave AI是一款AI驱动的高级照片编辑器,可轻松编辑照片和图像。它具有背景更改、物体移除和定制广告等高级功能。通过简单的点击,无需设计技能,轻松提升您的图像。

  • NovelAI.Dev:AI 绘画兴趣站

    NovelAI.Dev 是一个以技术宅为核心的 AI 绘画爱好者群体网站,提供多种与绘画相关的 AI 技术应用和工具。

  • AI SEO Service in Australia | Optidan:AI数字营销和SEO服务

    Optidan AI是澳大利亚顶级AI数字营销机构,提供AI SEO服务、Shopify SEO服务、去抄袭和内容创作服务。我们通过性能管理、Web诊断和战略优化提升SEO卓越,快速增长您的在线业务。

  • AskJack:让你的AI助手回答HR问题

    AskJack通过为频繁的HR咨询提供自动化响应,提高了工作效率,让你能够专注于战略性事务。它使用AI技术将助手带到你团队最常用的工作场所。通过AskJack,你可以减少重复的HR咨询,让你和团队能够专注于战略性事务。它还可以简化员工入职流程,提供即时访问所需的文件、指南和资源,并在入职后全年无休地提供相同的信息。AskJack还能帮助你了解员工的需求,提供数据驱动的见解。

  • OPS 提示词工作室:可视化编辑提示词工具

    OPS 提示词工作室是一款可视化编辑工具,支持一键翻译 AIGC 提示词,提供 Midjourney 提示词库,让用户轻松管理和使用提示词,助力提升生产力。该工具还提供简洁清晰的界面,方便用户快速复制、导出和翻译提示词。

  • imiprompt:Midjourney v5 艺术生成器

    IMI Prompt Builder 是一款全面的 Midjourney v5 提示生成器,拥有数千种选项可在 Web、Android 和 iOS 上使用。用户只需点击几下,即可创建反映其个人风格和艺术愿景的独特 Midjourney v5 艺术作品。

  • Ai 画廊:Ai 关键词生成器

    Ai 画廊是一款提供 Ai 关键词生成器的网站,展示人工智能作品和生成关键词描述,帮助用户更好地了解和分享 Ai 作品。用户可以浏览不同风格的 Ai 作品,获取灵感和创意。

今日大家都在搜的词: