AI音频新技术MMAudio：输入视频或文本可自动给视频配音效

2024-12-12 11:55 · 来源： AIbase基地

近日，来自伊利诺伊大学厄巴纳 - 香槟分校、Sony AI 及 Sony 集团公司的研究团队推出了一项名为 MMAudio 的新技术，该技术旨在通过多模态联合训练，实现高质量的视频到音频合成。

MMAudio 的核心创新在于能够利用视频和文本输入生成同步的音频，从而拓展了音频生成的应用场景，支持输入视频或文本，生成符合视频内容的音效。

MMAudio 的设计使其能够在各种视听和音频文本数据集上进行训练。这种多模态联合训练的方式，不仅提高了合成音频的质量，还确保了生成的音频与视频帧之间的同步。这一同步模块的引入，极大地增强了音频生成的精确度，确保了音频和视频内容的一致性。

目前，MMAudio 的代码库仍在建设中，研究人员表示单个示例推理功能已经可以正常使用，而训练代码则将在后续版本中推出。为了便于用户使用，该技术已在 Ubuntu 操作系统上进行测试，并提供了相关的安装指南。用户需要准备 Python3.9及以上版本，以及适当版本的 PyTorch 和 ffmpeg，随后可以通过简单的命令安装 MMAudio。

MMAudio 在生成音频时仍存在一些局限性，比如偶尔会产生不清晰的语音或背景音乐，同时对某些陌生概念的处理也不够理想。研究团队认为，增加高质量的训练数据能够帮助解决这些问题。随着研究的不断推进，MMAudio 有望在未来进一步优化其性能。

试玩:https://huggingface.co/spaces/hkchengrex/MMAudio

代码:https://github.com/hkchengrex/MMAudio

划重点:
🌟 MMAudio 技术通过多模态联合训练，实现视频与音频的高质量合成。
📦 用户可通过简单安装步骤，在 Ubuntu 上使用 MMAudio 进行音频生成。
⚠️ 当前版本存在一些局限性，但研究团队正致力于通过增加训练数据来改善性能。

相关推荐

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

本文介绍了AI领域最新动态：1)腾讯推出电影级音频生成工具AudioGenie，展现中国AI技术实力；2)阿里开源多模态智能体WebWatcher，突破现有系统局限；3)港大等高校联合推出3D建模技术OmniPart，实现模型组件独立性和清晰度；4)Meta发布无需标注数据的通用图像处理模型DINOv3；5)国内首个法律大模型"小包公"发布；6)ChatGPT移动端收入突破20亿美元；7)安卓厂商借鉴灵动岛设计，新芯片推动AI功能普及；8)欧洲AI公司推出仅94MB的超小模型；9)Claude Code新增编程教学模式；10)AI技术被滥用于电商恶意退款；11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

AI 腾讯AudioGenie 电影级音效
Soul深耕AI社交，最新技术成果亮相WAIC 2025

2025世界人工智能大会圆满落幕，Soul+App携自研端到端全双工语音通话大模型等创新成果亮相，展示AI重塑社交体验的潜力。该技术打破传统对话模式，支持多人语音互动，提升群聊参与度。Soul还展示多模态交互突破，包括实时视频生成能力，推动社交向“情感共生”进化。未来Soul将继续以“AI+社交”为核心，打造更智能、真实的社交体验，在AI社交赛道持续领跑。

人工智能社交平台语音通话
阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

今晚，阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V，并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程，仅需提供一张静态图片和一段音频，模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。支持分钟级长视频稳定生成，不止嘴动，手势、表情、姿态都能动。

视频生成模型通义万相数字人视频
大厂押注的AI和视频化，能成为播客的好出路吗？

长期在国内市场不温不火的播客赛道，正在焕发出越来越蓬勃的新机。 8月15日，自带流量和多重话题标签的罗永浩入驻B站，并宣布将开启一档视频播客节目《罗永浩的十字路口》，8月19日，罗永浩发布了第一条视频播客，与理想汽车创始人李想进行了近4小时的深度对话，一度引发热议，在B站内的观看量超230万。而由罗永浩掀起的这一波流量热潮背后，可以看出B站对于视频

播客罗永浩 B站
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
荐“无限量”供应Claude，就是AI IDE们的百亿补贴

Anthropic于2025年7月28日宣布，将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用，一次使用成本甚至高达数万美元，远远超过普通订阅预期。同样在上个月，Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制，导致大量用户抱怨“实际上并非无限”，纷纷在社群中吐槽，迫使公司CEO出面道歉、甚至给出退款补偿。这两�

文章搜索核心标签 AI工具
荐长视频自己的音乐节：从一个人刷片，到七万人狂欢

当夕阳余晖洒下，毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现，所有台下的合唱观众，感受到了一种强烈的共鸣。同一刻、在一起，体验同一种情绪，成了用户与腾讯视频之间的「独家记忆」。这是国内长视频平台首次把音乐节与内容紧密结合，通过一场线下活动，腾讯视频想要回应一个期待:为私密的、个人的线上观影行为，制造一种「共同在场感」。无�

文章搜索核心标签长视频平台
大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

逗哥配音作为国内领先的AI配音平台，凭借自主研发的语音合成大模型技术，已服务超千万创作者，累计生成音频量突破270亿次。其核心技术突破包括：1）支持40种语言，语音质量MOS分提升0.25，拟人度超83%；2）首创"AI分角功能"，将多角色配音效率提升90%以上；3）建成覆盖近千款发音人的全球声库，包含方言、外语及影视角色音；4）创新"真人声纹+AI增强"模式，

人工智能大模型技术 AI配音
乐牛明厨亮灶视频监控系统：构建校园餐饮的“透明后厨”新标杆

乐牛明厨亮灶视频监控系统通过AI智能分析、防油污高清画质和环境数据联动三大核心技术，破解传统后厨监管难题。系统实现秒级违规预警、24小时无死角监控和全流程数据贯通，有效提升校园、企业及医院等场景的食品安全管理效率，事故率下降90%，助力构建透明可信的智慧厨房新生态。

校园食堂监管后厨智能监控 AI视觉算法
荐首超长视频，只是红果的起点

红果，又一次创造历史。 Questmobile的数据显示，抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿，同比增长179%，并超过2亿月活的优酷。这意味着，短剧APP第一次超越长视频APP。近年来，“爱优腾”对短剧的态度有了微妙的变化，从“长短之争”的剑拔弩张演化为“取长补短”的协同联动，却依然无法阻拦红果。毋庸置疑，红果正走在高歌猛进的道路上。

短剧APP 红果月活

今日大家都在搜的词：

热文

3 天
7天

AI音频新技术MMAudio：输入视频或文本可自动给视频配音效

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

Soul深耕AI社交，最新技术成果亮相WAIC 2025

阿里Wan2.2-S2V正式发布：一张图+一段音频即可生成人物动态视频

大厂押注的AI和视频化，能成为播客的好出路吗？

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

荐“无限量”供应Claude，就是AI IDE们的百亿补贴

荐长视频自己的音乐节：从一个人刷片，到七万人狂欢

大模型技术赋能声音创作：逗哥配音引领AI语音合成新浪潮‌

乐牛明厨亮灶视频监控系统：构建校园餐饮的“透明后厨”新标杆

荐首超长视频，只是红果的起点

今日大家都在搜的词：

热文

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

何小鹏回应小鹏命名：称有人说小鹏改名销量翻倍

iPhone17标准版或上高刷苹果2025秋季发布会定档9月10日

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

网易云音乐：没有“访客记录”功能也不会有其他形式呈现

苹果客服回应4款iPhone将下架：尚未收到任何通知

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

小米澎湃OS3发布会官宣首批Beta版招募机型公布

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

站长商机