首页 > 业界 > 关键词  > MusicMagus最新资讯  > 正文

MusicMagus:基于扩散模型,实现文本精准编辑音乐片段

2024-02-26 09:49 · 稿源:站长之家

**划重点:**

1. 🌐 音乐生成技术挑战:从文本生成音乐已取得进展,但编辑生成的音乐以改进或修改特定元素仍是难题。

2. 🎙️ MusicMagus介绍:采用先进的扩散模型,提供精准修改音乐属性的用户友好解决方案,保持原始作品完整性。

3. 📈 实验证实卓越性能:通过比较实验证明MusicMagus在音乐语义完整性和结构一致性方面显著优于基线模型,推动音乐编辑技术的进步。

音乐生成技术一直是一个迷人的领域,将创造力与技术相结合,产生与人类情感共鸣的作品。这个过程涉及生成与通过文本描述传达的特定主题或情感相符的音乐。尽管从文本中生成音乐取得了显著进展,但一个重要的挑战仍然存在:如何编辑生成的音乐,以改进或修改特定元素而不必从头开始。这项任务涉及对音乐属性进行精细调整,如更改乐器的声音或整体情绪,而不影响其核心结构。

模型主要分为自回归(AR)和基于扩散的类别。AR模型在推理时间较长的代价下产生更长、更高质量的音频,而扩散模型在生成扩展序列方面表现卓越,尽管存在一些挑战。创新的MagNet模型合并了AR和扩散的优势,优化了质量和效率。MusicMagus通过借助先进的扩散模型,实现对特定音乐属性的精确修改,同时保持原始构成的完整性。

image.png

MusicMagus通过复杂的方法和对数据集的创新使用展示了其卓越的音乐编辑和细化能力。该系统的支柱是基于AudioLDM2模型的,该模型利用变分自动编码器(VAE)框架将音乐音频谱图压缩到潜在空间。然后,通过操作这个空间来生成或编辑基于文本描述的音乐,弥合了文本输入和音乐输出之间的差距。MusicMagus的编辑机制利用预训练的扩散模型的潜在能力,这是一种显著提高编辑准确性和灵活性的新方法。

image.png

研究人员进行了大量实验证明了MusicMagus的有效性,包括音色和风格转移等关键任务,将其性能与AudioLDM2、Transplayer和MusicGen等已建立的基线进行比较。

这些比较分析以使用CLAP相似性和Chromagram相似性等指标进行客观评估,以及使用整体质量(OVL)、相关性(REL)和结构一致性(CON)等指标进行主观评估。结果显示MusicMagus在CLAP相似性得分上提高了0.33,Chromagram相似性为0.77,表明在保持音乐语义完整性和结构一致性方面取得了显著进展。在这些实验中使用的数据集,包括用于音色转移任务的POP909和MAESTRO,在展示MusicMagus在改变音乐语义的能力方面起到了至关重要的作用,同时保留原始构成的精髓。

image.png

image.png

MusicMagus引入了一种先进的文本到音乐编辑框架,能够在保持构成完整性的同时操纵特定的音乐方面。尽管它在处理多乐器音乐生成、可编辑性与保真度权衡以及在进行重大更改时保持结构方面面临一些挑战,但它标志着音乐编辑技术的重大进步。尽管在处理长序列方面存在一些局限性,并且受限于16kHz的采样率,但MusicMagus在风格和音色转移方面取得了显著进展,展示了其创新的音乐编辑方法。

论文地址 https://arxiv.org/abs/2402.06178

举报

  • 相关推荐
  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • 小米公司发言人:有关小米SU7保险相关的谣言被有组织扩散传播

    快科技4月7日消息,刚刚,小米公司发言人就网传小米SU7保费进行辟谣,其表示:近日,我们发现有关小米SU7保险相关的谣言被有组织地扩散传播,现严正辟谣澄清如下:经与我司合作的五大保险公司:中国人民财产保险股份有限公司、中国平安财产保险股份有限公司、中国太平洋财产保险股份有限公司、阳光财产保险股份有限公司、中国人寿财产保险股份有限公司逐一确认,

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 为什么要使用MCP?MCP模型上下文协议能解决什么问题?

    在当今数字化时代,AI应用的开发和部署正面临着一个关键挑战:如何将AI技术与现有的服务和系统高效集成。为了解决这一难题,MCP应运生。AIbase的MCP资源网站还提供了详细的开发文档和教程,帮助开发者快速上手并深入学习MCP技术。

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • 能理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 身高178cm小鹏机器人IRON亮相:即将奔赴工厂和门店“打工”

    小鹏汽车在上海车展推出178cm高的仿生机器人IRON,这是其车展首秀。该机器人能完成碰拳、比耶、聊天等动作,走路比创始人何小鹏还稳。未来将部署在小鹏工厂和门店承担工作任务。IRON采用仿真人结构,重70kg,双手拟人化,拥有22个自由度、60个可动关节,能模拟人类站立、躺卧等动作,将应用于工业场景。

  • AI日报:阿里通义千问登顶全球开源模型榜首;MiniMax推Speech-02语音模型;​ChatGPT付费用户激增至2000万

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里通义千问Qwen2.5-Omni登顶全球开源模型榜单2024年4月2日,HuggingFace发布了最新的大模型榜单,阿里巴巴的Qwen2.5-Omni凭借其卓越的性能和多模态能力,成功登顶,成为全球开源模�