说到声音克隆,大家都不陌生。开车时听“志玲姐姐”为你导航,看书时“喜欢的爱豆”给你讲故事,听“AI孙燕姿”唱脍炙人口的流行歌曲,听“马三立”讲相声等等,这都是声音复刻技术在生活中的具体应用。
声音克隆,也称声音复刻,通过使用AI模型对大量的数据进行学习和训练,从而得到与用户本人在音色和发音风格上非常相似的声音模型,快速“复刻”个性化声音。用以弥补传统语音合成技术在数字化人声上的不足,生成纹理更为真实丰富的声音。
近年来,随着智能语音产业的快速发展,语音合成技术得到了广泛应用,而声音复刻作为语音合成拓展出的个性化应用,也在不断取得进展。目前,声音复刻已经在语音导航、小说阅读、影视配音、虚拟人音色生成、AI歌曲等领域广泛落地应用。
标贝科技声音复刻
事实上,得益于AI技术的发展,还原人声已经是非常基础的事了。但通过一般声音复刻软件克隆出来的声音往往机械感重,缺乏语调、情感的变化,在交互过程很难带入。想要实现1:1的高质量声音克隆,更需要耗费大量时间以及高昂的定制成本。
此前,为了满足多场景音色需求,标贝科技推出普通声音复刻和精品声音复刻两种方案。 普通声音复刻仅需5分钟音频数据,便可实现与真人语气音调基本接近的合成音色。而精品复刻则是基于30-60分钟的音频数据,提取说话人的音色和发音特征,经过2-3天的模型训练及效果调优,实现用户个性化的音色定制。
近日,为了进一步降低声音复刻使用门槛,标贝科技在保留普通声音复刻方案的基础上,依托核心的语音大模型迁移学习和深度神经网络技术,对原有的精品声音复刻方案进行升级迭代。用户仅需提供30分钟的音频数据,经过3个小时训练出高相似度的声音模型,即可将目标说话人的声音复刻下来,高保真还原真人发音,还富有鲜明的情感表现力和人格化魅力。
相对于原有的方案,升级后的精品声音复刻技术增加了音色的多情感表现能力,可以支持开心、愤怒、悲哀、惊讶、恐惧、厌恶等多种情绪,适用于不同情境下的语意表达。同时训练周期缩短90%以上,整体复刻成本降低近40%。
▲新老版声音复刻对比
个性化音色定制 让合成声音更便捷普惠
伴随着语音合成技术应用不断深入,使用场景的日益多样化也对声音提出了更高的要求,以标准音色合成、声音复刻、声音转换等为代表的声音定制服务开始成为发展趋势。
实际上,AI语音定制在智能语音产业中始终具有高度的竞争优势。音色,是每个人独有的声音特色。AI声音不仅是一项基本人机交互能力,更被赋予了很多品牌属性。强大的音色定制能力能够赋予机器人拥有媲美真人的声音属性,基于领域和场景的要求,打造更为鲜活的品牌形象。
经过多年的行业积累沉淀,标贝科技已逐步形成了一套成熟的技术方案,覆盖从声音画像设计、数据采集标注、模型优化和最终部署上线的全流程,实现一站式TTS商业化定制服务。面向不同层面的用户需求,标贝科技可以基于普通声音复刻、精品声音复刻、标准化定制等多层级技术方案,提供从底层数据、到核心技术,再到场景应用的全链路TTS音色定制支持,客户无需耗费过多时间和资源,即可实现专属IP音色。
目前,标贝科技已经为湖南电信、恒生电子、信雅达、慧捷科技、人民日报、风平智能、穿山甲等客户提供音色定制方案,覆盖智能客服、金融券商、新闻媒体、社交娱乐、虚拟数字人、IOT机器人等领域。
未来,AIGC时代,生成式AI成为新风潮,声音定制服务也会迎来更为广阔的发展空间和潜力。标贝科技将不断优化和完善声音定制服务,提供更加全面和智能的语音交互体验,为用户带来更多惊喜和便利。
(推广)