首页 > 业界 > 关键词  > AI模型最新资讯  > 正文

趣AI | 谷歌发布新AI模型AudioLM,几秒音频提示即可生成同风格语音和钢琴曲

2022-10-10 15:01 · 稿源:站长之家

站长之家(ChinaZ.com)10月10日 消息:最近,谷歌研究人员开发了一项人工智能系统AudioLM,只需输入几秒钟的音频即可生成听起来相似风格的音频,包括钢琴音乐,生成的声音听起来与原始音频的音色几乎没有区别。

AudioLM 是一个纯音频模型,在没有任何文本或音乐符号表示的情况下进行训练。该技术类似于语言模型,主要根据提示语音内容,自行预测并生成更多关联的内容。不过,AudioLM尚未向公众开放,

谷歌称,它可以加快音频生成的人工智能训练过程,并最终自动生成音乐为视频配音。与当前依赖基于文本的数据的系统不同,AudioLM 不需要事先标记或转录。它可以模仿音频的音高、音色、强度和清晰度,以及背景噪音和说话者的呼吸节奏。

image.png

据官网介绍,AudioLM将输入音频映射到一系列离散标记,并将音频生成转换为该表示空间中的语言建模任务。通过对原始音频波形的大型语料库进行训练,AudioLM学会了在给出简短提示的情况下生成自然和连贯的语音内容。在对语音进行训练时,在没有任何抄本或注释的情况下,AudioLM生成语音不仅语法正确和语义连贯,同时还保持说话者身份特征、口音和韵律。

此外,AudioLM 在没有任何符号表示的情况下接受过钢琴音乐的训练,它也可以学习生成连贯的钢琴音乐。AudioLM 网站展示了基于一小段钢琴音乐,系统自动生成更长的连贯同一种风格的的钢琴音乐。

image.png

谷歌在其AudioLM 网站上分享了示例,感兴趣的可访问链接了解,网址:https://google-research.github.io/seanet/audiolm/examples/。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天