首页 > 传媒 > 关键词  > 正文

想唱就唱!标贝科技高保真歌唱合成方案上线

2023-11-06 16:08 · 稿源: 站长之家用户

随着AI技术的成熟,AI能力已慢慢渗透进音乐产业的诸多方面。特别是在ChatGPT爆火后,越来越多的生成式AI工具被快速推出,AI也全面展示了自身在作词、编曲、伴奏、演唱方面的创作能力。

例如,去年出现的开源AI翻唱项目Diffsvc和So-vits,从出现到发展至普通人难以辨别的地步,只用了几个月时间。今年初,谷歌也宣布开发了一款名为MusicLM的工具,可以实现从文本直接生成音乐。AI在音乐领域能发挥的作用越来越多。

歌唱合成

歌唱合成是将乐谱信息和歌词转换为歌唱语音的技术。由于音乐是流媒体,相较于语音合成,歌唱合成对作品的流畅度要求更高,需要保证作品的连续性和情感的起伏。

为了实现这一目标,歌唱合成技术需要输入更多维度的音乐标注信息,如音高、音符的时值等,同时还要求输出的歌声更有感情的变化,具有欣赏性。因此,技术实现上来说更为复杂。

随着目前AI语音技术的发展,歌唱合成技术也在不断进步,基于神经网络的歌唱合成模型已经可以按照乐谱信息合成完整的歌声。然而,合成歌声的表现力和真人演唱的录音相比仍有明显差距。

真人在唱歌时,可以根据歌词的语义,加入情绪和力度等各种细节变化,以增强歌声的感染力和表现力。而一般歌声合成软件虽然能够输出较为准确的歌声,但是因为无法理解歌词中所蕴含的语义信息,导致最终合成的歌声缺乏情感表现力。同时,由于歌曲相对于语音的变化范围更大,如何建模以合成更稳定的歌声,也是高表现力歌声合成的一大难题。

标贝科技歌唱合成方案

近日,标贝科技基于TTS4. 0 全新的高音质合成系统,上线高保真歌唱合成技术方案。依托于领先的深度学习技术和多情感风格大语言模型,让AI模型具备真人独特的音色、歌唱技巧和情感表现力,生成的歌声更加流畅、真实、细腻,达到媲美真人的演唱效果。

标贝科技的歌声合成模型是基于神经网络的声学模型和声码器两部分组成,二者均采用了生成对抗网络的结构,来增加对歌声信息的还原度。歌声声学模型除了预测mel谱以外,也会预测基频和清音/浊音符号,这些信息和mel谱一起送入声码器来辅助波形恢复。

为了保证生成的mel谱尽可能的还原歌声声音特点,我们的声学模型在采用生成对抗训练方式之外,还使用了多尺度判别器组合的结构,从不同粒度来优化频谱细节 。

得到mel频谱后,将其与基频和清音/浊音一起送入声码器来恢复音频。同时,由于歌声的音高和发音持续时间波动较大,我们通过增大生成器和判别器的感受野来捕获更多的信息,其次引入一个额外的基于多尺度STFT(短时傅里叶变换)损失函数来,来获得更稳定和精细的波形。

目前,标贝科技歌唱合成方案可以支持用户自由填词,然后选择喜欢的音色,和预置的旋律进行智能匹配,完成歌曲合成。将操作歌曲创作的输入过程尽可能简化,并在合成效率和效果方面有了显著改善,用户一键即可体验短视频填词成曲的玩梗乐趣,适用于短视频、广告配音、社交娱乐等各种场景,并已经商业化落地。

歌唱合成推动了语音技术和音乐的进一步融合,更是拓展了音乐创作形式的多元化。帮助音乐人提高创作效率,同时也让非专业人士通过简单的操作就能拥有自己的音乐作品,极大地推动音乐的普及化和大众化。未来,随着语音技术的迭代发展,标贝科技也将持续完善产品服务能力,为客户提供更多个性化语音解决方案。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 标贝科技入选《中国金融科技竞争力百强企业报告(2025)》

    第九届数字金融与金融安全大会在京举办,标贝科技凭借AI语音交互技术实力第三次入选《2025中国金融科技竞争力报告》前沿技术应用类代表企业。报告显示,2024年中国金融科技市场规模达3949.6亿元,银行科技投入占比73%,AI语音技术在智能客服、外呼等场景应用广泛。标贝科技构建了覆盖语音全栈技术的解决方案,已服务多家金融机构,其声纹识别技术可实现毫秒级身份核验。未来将持续探索数字人客服等创新场景,助力金融机构构建智能化服务体系。(140字)

  • Mediatom快应用聚合变现解决方案即将上线,敬请期待!

    Mediatom将全面支持快应用变现服务,为开发者提供高效灵活的解决方案。该平台通过动态分层优化和全竞价体系,帮助开发者对接多平台广告资源,最大化流量价值,预计可提升变现收益30%以上。其四大核心功能包括:一键接入主流广告平台、智能匹配最优广告形式、全样式素材支持及实时数据追踪。平台已服务5000+开发者,覆盖2万+款App,累计为开发者创收数十亿元。作为数字广告技术标杆,Mediatom凭借十年技术沉淀和安全可靠的聚合SDK平台,持续优化开发者变现效率。

  • 健合集团合生元发布乳源研究新突破 母乳化配方再攀科技高峰

    5月20日,"2025年母乳科学研究进展学术研讨会"在京召开。会议聚焦母乳营养与婴幼儿健康研究,发布了《母乳科学研究认知新十条》,标志着我国母乳研究进入新阶段。合生元作为高端婴幼儿营养品牌受邀参会,展示了其在乳桥蛋白LPN等关键成分的研究成果。会议还重点探讨了诺曼底牛乳("熊猫牛")的营养优势,其蛋白质含量达3.97%,含丰富乳活性蛋白和7种乳源低聚糖,更接近母乳成分。合生元与东北农业大学合作成立"乳品创新研究中心",通过"产学研用"模式推动配方奶粉品质升级。企业将持续深化母乳活性成分研究,加速科研成果转化,为婴幼儿健康提供科学保障。

  • 高新投三江与长庆油田深度合作,石油化工解决方案护航能源安全

    三江集团与国家能源巨头中石油长庆油田达成深度合作,将为其提供覆盖油气勘探、开采、储运、加工全链条的智能消防解决方案。此次合作凸显三江在石化领域的技术实力,其方案包含四大核心优势:防爆认证设备适应高温高压环境;AI监测网络实现全域风险预警;智慧消防平台提升应急响应;国产化组件确保合规升级。作为我国最大油气生产基地,长庆油田年产占全国1/6,此次合作将助力国家能源基地构建"事前预防"安全屏障,标志着国产消防技术实现重大突破。

  • 表情包自由!腾讯搜狗输入法联合腾讯混元 推出AI表情合成

    不用再为微信、QQ回消息而烦恼,目前毫秒级AI生成表情包已经实现。 近日,搜狗输入法版推出AI合成表情”和候选表情”两大功能,用AI技术提升用户社交沟通体验。 其中,AI合成表情”基于腾讯混元大模型技术,用户输入文字描述或表情描述,便可毫秒级生成个性化表情包。 候选表情”则是用户在输入常用文字时,候选区自动推荐高匹配度表情包,一键即可发送,告别手�

  • 联想极光游戏服务方案正式登场:618高能上线,从极光GK10键盘开启你的主场BUFF

    联想在618期间推出极光游戏服务方案,主打多设备RGB灯效联动,为高考毕业生打造沉浸式电竞体验。该方案通过"Lenovo Aurora"软件实现统一管理,支持场景识别切换、云端配置同步等功能,搭配首发的极光GK10三模机械键盘(支持蓝牙/2.4G/有线三模连接,全键热插拔,1600万色RGB灯效),可自动适配游戏场景灯光模式。方案突破外设联动壁垒,让灯效从"好看"升级为"好用",特别适合打造宿舍电竞空间。目前GK10键盘618特惠价仅100多元,性价比突出,是学生党升级装备的理想选择。

  • 破解高密散热难题, 维谛技术(Vertiv) 360AI混合制冷方案重塑AI时代热管理

    文章主要探讨AI大模型训练带来的高温危机及解决方案。随着GPU集群全功率运转,数据中心面临前所未有的散热挑战,单机柜功率密度突破10kW,传统散热手段力不从心。维谛技术(Vertiv)提出"360AI高效混合制冷方案",整合风冷、液冷和自然冷却三种方式,构建全链路温控体系。方案覆盖从服务器到户外的不同场景需求,包括风液混合型、液液CP组合等多元方案,能精准应对10-130kW不同功率密度需求。同时,维谛推出业界首创风液氟泵一体机,支持快速部署,并创新研发适配AI的自然冷高温冷机,单框架制冷能力近3MW。该方案兼顾算力需求与节能政策要求,为智算时代构建更可靠的温控底座。

  • 柬埔寨公主现身深圳商场唱中文歌 网友:歌声很甜美

    6月23日,深圳的一场活动因柬埔寨公主诺罗敦·珍娜的到来而格外引人注目。当日,珍娜公主现身深圳某商场,现场为市民们深情演唱中文歌曲,其甜美的歌声瞬间吸引了众多市民驻足观看。 活动现场,珍娜公主一开口,那悠扬动听的旋律和甜美的嗓音便迅速抓住了大家的耳朵。她演唱的中文歌曲发音标准,情感真挚,让在场的观众们沉浸其中。不少市民纷纷鼓掌鼓励,现场�

  • 贝锐蒲公英组网方案:低投入高回报,助力包装设备企业高效远程运维

    本文探讨了智能包装设备在食品饮料行业中的核心作用及远程运维解决方案。国内企业通过多年技术积累,已掌握从灌装到贴标的完整自动化包装技术,产品远销全球。然而设备调试阶段常面临计量不准、定位偏差等问题,传统现场维护模式响应慢、成本高。贝锐蒲公英基于SD-WAN技术推出远程运维方案,通过工业级路由器R300+快速组网,实现设备远程访问与调试,解决工厂网络隔离、跨国连接等难题。方案具备四大优势:1)突破工厂网络隔离限制;2)全球智能链路保障跨国稳定连接;3)全面支持工业协议;4)多层次数据安全防护。该方案显著提升设备交付效率,降低运维成本,助力企业数字化转型,2024年市场份额居全国首位。

  • 思看科技联合浙江大学机械工程学院产教融合研讨会顺利举行

    2025年6月6日,思看科技与浙江大学机械工程学院联合举办第二届"智能制造创新人才培养与三维视觉技术产教融合研讨会"。会议汇聚学界和产业界专家,围绕智能制造人才培养策略与三维视觉数字化技术应用展开深入探讨。浙大机械工程学院党委书记刘振宇强调智能测量是智能制造基础,思看科技董事长江峰回顾校企合作成果。会议通过"上午实践展示+下午理论探讨"的创新模式,推动产教深度融合。与会专家就三维视觉技术在工业设计、质量检测等领域的创新应用进行交流,为智能制造人才培养提供新思路。活动搭建了"产学研用"高端对话平台,为产业变革注入创新动能。