首页 > 业界 > 关键词  > OpenVoice最新资讯  > 正文

OpenVoice V2版本发布 能对声音风格进行精细控制

2024-04-26 09:41 · 稿源:站长之家

站长之家(ChinaZ.com)4月26日 消息:MyShell TTS 开发的 OpenVoice 是一项创新的声音克隆技术,它能够通过仅使用一小段参考发言者的音频片段来复制其声音,并生成多种语言的语音。

QQ截图20240426094050.png

目前,MyShell TTS 已经推出了全新的OpenVoice V2版本。这个版本能够直接支持英语、西班牙语、法语、中文、日语以及韩语,并且显著提高了音频输出的质量。OpenVoice V2拥有复制任意声音的能力,能以多种语言进行语音输出,并具备情感和口音的控制功能。它不但可以准确模仿特定的声音色彩,还允许对声音的风格,包括情感、口音、节奏、停顿及语调等进行细致调整。

主要功能:

  • 准确的音色克隆: OpenVoice 能够精确地克隆参考音色,并在多种语言和口音中生成语音。

  • 灵活的声音风格控制: 用户可以对声音的情绪、口音、节奏、停顿和语调进行详细调整,实现个性化的声音输出。

  • 零样本跨语言声音克隆: 即使某些语言未在训练集中出现,OpenVoice 也能实现声音复制。

  • 高效的计算性能: 相比于市场上现有的商业API,OpenVoice 在保持高性能的同时,计算成本大大降低。

OpenVoice V2新特性:

  • 更好的音频质量: 采用新的训练策略提升音频质量。

  • 原生多语言支持: 原生支持英语、西班牙语、法语、中文、日语和韩语。

  • 集成 MeloTTS: V2版本引入了 MeloTTS 技术,增强了声音的自然度和表现力。

  • 免费商业使用: 自2024年4月起,V1和V2版本均以 MIT 许可证发布,支持商业和研究用途的免费使用。

技术方法:

声音样式和语言的解耦设计: OpenVoice 的设计哲学是将声音的不同特性进行解耦,使得可以独立控制各个参数,提高操作的灵活性和推断速度。

基础发音者 TTS 模型与音色转换器: 包括允许对风格参数进行控制的基础发音者 TTS 模型,以及采用编码器-解码器结构的音色转换器。

训练策略和数据处理: 在训练过程中,使用了大量的多语种、多风格的音频样本,并采用特定的损失函数确保在保留风格的同时去除或转换音色。

官网:https://research.myshell.ai/open-voice

项目地址:https://top.aibase.com/tool/openvoice

创建自己的语音机器人:https://myshell.ai/

举报

  • 相关推荐
  • 华为发布首款鸿蒙折叠屏电脑,花瓣地图 PC 版本适配上线

    2025年5月19日,华为在成都举办新品发布会,推出全新鸿蒙电脑HUAWEI MateBook Pro和非凡大师家族新成员HUAWEI MateBook Fold。其中MateBook Fold是全球最大商用折叠屏电脑,搭载HarmonyOS系统,展开为18英寸大屏,折叠后仅13英寸,厚度7.3mm,重量1.16kg,完美解决大屏与便携难以兼得的难题。同时发布的花瓣地图PC版适配折叠形态,支持3D地球模式、多窗口操作等功能,实现跨设备无缝协同。华为还推出WATCH FIT 4 PRO智能手表,支持离线地图和15000+高尔夫球场导航。花瓣地图已覆盖全球160+国家和地区,提供70+种语言服务,持续升级全球出行体验。

  • 小米YU7三个版本均搭载小米超级电机V6s Plus电机 功率并不同

    小米汽车官方确认,新发布的小米YU7全系三个版本均标配超级电机V6s Plus。该电机采用分段磁钢技术,通过优化磁钢布局降低损耗,配合升级功率模块和寻优算法,全面提升转速、扭矩和功率表现。其中高性能四驱版YU7 Max后驱电机最大功率达288kW,峰值扭矩528Nm,相比标准版有所提升。官方表示不同版本电机功率差异是为满足不同用户场景需求而设计。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • 苹果macOS 26 Tahoe发布:全新玻璃风格 顶栏全透明设计

    据媒体报道,在备受瞩目的WWDC25开发者大会上,苹果正式揭晓了新一代操作系统:macOS 26 Tahoe。此次更新带来了从视觉焕新到功能强化的全方位升级。 macOS 26 Tahoe采用了全新的玻璃质感设计语言,覆盖了Dock栏、应用图标乃至桌面小部件。原生应用界面深度融入了这一风格,顶栏实现全透明化,营造出通透灵动的整体观感。用户还能自定义系统文件夹的配色方案,个性化体验得�

  • 代号迈巴赫!荣耀Magic V5本月发布:骁龙8至尊领先版轻薄大折叠

    进入6月,各大手机厂商的旗舰新机也都蓄势待发,其中就包括荣耀Magic V5折叠屏旗舰。 今日,数码博主数码闲聊站”透露,荣耀Magic V5代号Maybach(迈巴赫),支持66W有线快充,内置5950mAh电池(额定值),采用7.95英寸2KLTPO屏幕,5000万像素主摄,影像有新升级。 此外,新机支持北斗卫星短信、侧边指纹,提供绒黑、暖白、曙光金、丝路敦煌等配色。

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • 小米澎湃OS 2年中版本升级公告发布:首批18款机型今日推送

    今日,小米正式对外发布澎湃OS2的年中升级公告,宣布首批适配机型的系统推送工作从今日起正式启动,众多用户期待已久的系统升级大幕就此拉开。 此次纳入首批推送名单的机型多达18款,涵盖了小米品牌和REDMI品牌的多款热门产品。具体机型包括小米15Ultra、小米15Pro、小米15、小米14Ultra、小米14Pro、小米14Pro钛金属版(卫星通讯)、小米14、小米MIX Fold4、小米MIX Flip,以及小

  • 隐藏的AI指令揭示了 Anthropic 是如何控制 Claude 4 的

    威利森指出,这些系统提示就像是“模型曾经做过、但现在被禁止做的事件清单”……

  • 用DeepSeek徒手造一个能对话的AI简历,助你当场拿下Offer。

    ​故事是这样的。 我最近一直在招人,想招点人帮我分担一些压力,全职的实习的啥的都可以。 我这再怎么说,也是一个跟AI有关的地方,所以很多人在投简历的时候,都会写很多跟AI相关的经历,我甚至收到过很多AI生成的简历。 很多写的很玄乎,什么掌握全链路工作流,独立搭建xx系统,深度参与xx项目,掌握xx行业资源等等,但是一面,问用过最惊艳的AI产品是啥,10个�

  • GhibliTattoo发布!AI纹身生成,吉卜力风格专属定制!

    这款工具专为吉卜力粉丝、纹身爱好者与创意设计师打造。通过文本提示或图片上传,即可生成高分辨率、透明背景的吉卜力风格纹身设计……