首页 > AI头条  > 正文

字节推音乐生成神器 Seed-Music 支持多样化输入和精确控制

2024-09-19 07:05 · 来源: AIbase基地

最近,字节跳动放出了一个音乐创作的新玩意,叫 Seed-Music。这个神奇的音乐生成模型,可以让你通过多种输入方式(比如文字描述、音频参考、乐谱、甚至语音提示)轻松生成和音乐,简直就像拥有一个音乐魔法师! 

Seed-Music 结合了自回归语言模型和扩散模型,不仅能够生成高质量的音乐作品,还能让你对音乐的细节进行精确控制。无论你是想歌词配乐,还是想改编旋律,这里统统没问题。甚至,你可以上传一段短小的语音片段,系统会自动将它转化为完整的歌声,方便又高效。

功能强大的 Seed-Music 不仅支持声乐和器乐的生成,还包括了歌声合成、歌声转换和音乐编辑等一系列功能,能够满足不同用户的需求。你可以通过简单的文本描述生成流行乐,也能通过音频提示调整音乐风格,真是让人耳目一新。

更有趣的是,Seed-Music 的架构分为三个模块:表示学习模块、生成模块和渲染模块,这些模块像乐队一样齐心协力,通过多模态输入生成高质量的音乐。

image.png

表示学习模块将原始音频信号压缩成三种中间表示,适用于不同的音乐生成和编辑任务。生成模块则通过自回归模型和扩散模型,将用户的输入转化为音乐表示。而最后的渲染模块则负责将这些中间表示变成你耳朵可享受的高质量音频。

为了保证音乐的质量,Seed-Music 采用了多种技术:自回归语言模型逐步生成音频符号,扩散模型则通过去噪手段让音乐更加清晰,而声码器则将这些音乐 “代码” 翻译成可播放的高保真声音。

Seed-Music 的训练过程也很有趣,分为预训练、微调和后训练三个阶段。通过大规模的音乐数据,模型获得基础能力,再通过微调提升具体任务的表现,最后还会通过强化学习不断优化生成结果。

项目地址:https://team.doubao.com/en/special/seed-music

  • 相关推荐
  • 小米汽车:苹果授权Apple Music安卓版将陆续推送

    小米汽车高度重视苹果生态支持,调研发现SU7车主中超半数为苹果用户。针对苹果用户用车痛点,小米与苹果深度合作,通过系统级整合实现账号永久同步和无缝音乐续播,并特别适配授权版Apple Music安卓应用,提供无损音质体验。目前相关更新已通过OTA向全系车型推送,显著提升苹果用户的用车便捷性和音乐品质。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • AI日报:MiniMax Music 1.5上线;腾讯会议上线AI托管;蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

    本文介绍了AI领域的最新动态:MiniMax推出Music 1.5模型,支持4分钟高质量音乐生成;腾讯会议AI托管功能提供会议分身服务;蚂蚁集团发布AI眼镜连接框架gPass;Anthropic为Claude新增自动记忆聊天功能;苹果AI功能在欧盟受限;AI首次担任职业球队教练获胜;谷歌推出离线AI应用Edge Gallery;企业应用AI成熟度模型发布;Claude新增网页与PDF抓取功能;FTC启动对AI聊天机器人安全性的调查。

  • 三亚海棠湾万达瑞华度假酒店于白露时节推出“瑞食记”限定山药乌鸡汤

    三亚万达瑞华酒店于白露时节推出“山药乌鸡汤”,融合传统养生智慧与节气饮食文化。选用优质食材,慢火细炖,汤品清亮不油腻,入口醇厚肉香与山药清甜交融,兼具滋补养生功效。作为“瑞食记”系列节气美食之一,酒店以“承四节气传统中国味”为主题,结合高端餐饮体验,传递健康温馨的节令氛围。目前该汤品已在酒店海棠轩中餐厅正式供应,诚邀宾客品鉴。

  • 延续字节的红书梦,可颂找到新「钩子」

    最近一段时间,我们在日常刷抖音的过程中经常看到带有可颂链接的内容。这些内容往往会通过几张照片或一段视频向大家推荐某一地点的拍照姿势和拍摄角度,并告诉用户如何在可颂找到不同地点的最佳机位攻略。 以机位攻略这一更细的痛点为切口,可颂先解决了用户拍出更好看照片的需求,然后沿着从「工具到社区」的路径,重新找到了一条围绕本地生活场景构建种草社

  • 手机被远程控制转账 一根牙签立功了:取出SIM卡切断网络

    近日,温州与成都接连发生远程控制诈骗案。不法分子冒充平台客服,诱骗老人下载含木马病毒的涉诈App,导致手机被远程操控、账户资金面临盗转。危急时刻,民警用牙签取出SIM卡切断网络,成功保住吴奶奶26万元存款。警方提醒,此类诈骗隐蔽性极高,利用老年人对信息技术的陌生感制造恐慌。公众需提高警惕,切勿随意下载不明来源App,遇可疑情况及时报警。社会各界应加强防骗宣传,共同筑牢反诈防线。

  • 阿里 Qoder 限时五折启动,支持支付宝,性价比远超Cursor

    阿里巴巴旗下新一代AI编程平台Qoder近期推出限时5折优惠活动,支持支付宝付款,旨在吸引更多开发者体验其高效编程能力。Qoder集成全球顶级编程模型,具备强大的代码处理功能,可一次性检测10万个代码文件,并首发Repo Wiki功能,自动生成结构化项目文档。平台检索召回率和代码生成准确率分别领先行业标杆12%和13%,显著提升复杂工程的理解与生成效率。实测显示,利用Qoder开发电商全栈应用可将数天工作量压缩至十分钟内完成。目前已有数十万开发者深度使用,团队重视用户反馈并持续升级核心功能,如新增“远程委派”和“上下文压缩”功能,优化开发体验。此次活动诚意邀请全球开发者感受AI编程的技术革新。

  • 老人手机被远程控制转账 一根牙签立功了 保住26万元

    温州八旬吴奶奶遭遇冒充短视频平台客服的电信诈骗。骗子谎称其账号已开通直播会员,需按指示操作取消,否则每月扣费800元。老人下载指定App后被植入木马病毒,手机遭远程控制,26万元即将转出时,民警及时拔掉SIM卡切断联系。资金未损失。警方提醒:手机被远程控制应立即拔SIM卡、关路由器、冻结银行卡、查杀病毒并尽快修改密码。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 让搜索“一步到位”! 快手提出端到端生成式搜索方案OneSearch

    当前电商平台普遍采用“召回、粗排、精排”级联式搜索架构,但存在商品描述混乱、相关性差、冷启动难等痛点。快手提出业界首个工业级端到端生成式搜索框架OneSearch,集成三大创新模块:关键词增强量化编码(KHQE)提升商品特征建模能力,多视角用户行为序列注入策略实现精准偏好捕捉,偏好感知奖励系统(PARS)优化排序多样性。实际部署后,订单量提升3.22%,买家数增长2.4%,在线推理成本降低75.4%,冷启动场景表现尤为突出。该系统标志着生成式模型在大规模工业场景中首次完整替代传统搜索链路,为电商搜索技术发展指明方向。

今日大家都在搜的词: