Adobe推AI音效生成系统MultiFoley ，文字提示生成视频同步音效

2024-12-02 09:37 · 来源： AIbase基地

最近，Adobe 研究团队与密歇根大学的研究人员联合开发了一款名为 MultiFoley 的人工智能系统，这款系统能够生成电影和视频中的配音音效，助力后期制作。

MultiFoley 的创新之处在于它允许用户通过文字提示、参考音频或视频示例来创造音效。在演示中，该系统甚至能将猫的叫声转化为狮子的吼叫，或将打字机的声音转换为钢琴音符，并与视频画面完美同步。

MultiFoley 的音频输出质量达到48kHz 的高带宽，这主要得益于研究人员使用互联网上的视频和专业音效库进行训练。与以往的系统不同，MultiFoley 首次将多种输入方式 —— 文本、音频和视频参考 —— 整合到同一模型中。它通过分析每秒8帧的视觉特征，并将其放大以匹配40Hz 的音频采样率，确保生成的音频与视频保持紧密同步。

在测试中，MultiFoley 在音频与视频的同步和音效与文本描述的匹配方面表现出色，平均同步精度达到了0.8秒，显著优于传统系统通常超过一秒的延迟。用户研究显示，85.8% 的参与者认为 MultiFoley 在语义一致性方面优于第二名，而94.5% 的参与者更喜欢它的同步效果。

尽管 MultiFoley 展现出了强大的潜力，但研究团队也指出目前的一些局限性，例如训练数据相对较小，这限制了它的音效种类。同时，系统在生成多个同时音效时也存在一定困难。研究团队计划不久后发布源代码和模型。

虽然 Adobe 尚未宣布将 MultiFoley 纳入其产品中，但这一技术与 Adobe Premiere Pro 视频编辑软件中现有的人工智能功能非常契合，有望为个人创作者和制作公司在音效设计流程中带来便利。

划重点:
🎬 MultiFoley 是 Adobe 与密歇根大学合作开发的一款 AI 音效生成系统，可通过多种输入方式生成音效。
🔊 该系统的音频输出质量达到48kHz，平均同步精度为0.8秒，优于传统音效系统。
📈 用户研究显示，MultiFoley 在音效的语义一致性和同步效果方面都获得了高评价。

相关推荐

TECNO发布全球最薄三折概念机PHANTOM Ultimate G Fold

TECNO发布PHANTOM Ultimate G Fold概念机，采用创新双屏内折设计，配备9.94英寸柔性大屏，折叠状态下厚度仅11.49mm，展开后最薄处3.49mm，刷新三折手机轻薄纪录。其核心创新在于独特的G型三折结构，通过左右双内折实现屏幕完全内藏保护，并配备外屏保证折叠状态下的常规使用体验。该机采用精密双铰链系统，支持多角度悬停，搭配2000MPa高强度钢铰链和0.3mm超薄钛纤维背板，兼顾强度与轻薄。量产版将搭载高性能芯片、多焦段三摄系统和超5000mAh电池，重新定义旗舰折叠屏体验。
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
闪剪AI：一键生成数字人营销视频，助力商家轻松实现内容获客

闪剪AI是一款专为营销视频制作设计的智能工具，主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括：1）一键生成数字人视频，支持定制专属形象；2）提供1000+数字人模特素材；3）多语种语音克隆，实现本地化内容；4）内置爆款文案素材库；5）智能成片功能简化制作流程；6）照片数字人让静态图片"开口说话"；7）直播切片功能实时引流。该工具

AI内容营销智能生成视频数字人营销
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
ZEGO AI Agent：支持一张图生成数字人

即构科技推出AI Agent2.4，用户只需上传一张正面照即可生成1080P高清数字人，支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应，唇形同步准确，支持文本/音频/语音流驱动。适用于教育、客服等场景，提供API灵活定制，实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎，在生成效率、拟真度方面显著提升，带来低门槛、高沉浸的数字人互动体验。
三维天地AI智能体应用落地场景：一键生成的“编译工厂”

文章分析了当前软件开发行业面临的三大痛点：1)软件需求激增与开发人才短缺的矛盾；2)传统开发流程中需求分析、编码等环节效率低下；3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案，该方案通过自然语言处理技术，将结构化需求文档自动转换为可执行代码，显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在：开发周期从天级缩短至分钟级；降低60%人力成本；代码风格统一规范；减少人为错误；沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。
ppt自动生成工具最好用的3个

文章介绍了当前AI生成PPT工具的发展现状，重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能：1）智能对话式生成，支持中途修改需求；2）提供三种编辑模式（纯文本、纯设计和文本+设计）；3）支持导入文档自动排版，提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库，支持在线更换颜色、字体等设计元素。虽然需要购买会员，但相比市面上质量参差不齐的同类产品，该工具在交互体验和功能完整性上表现突出。
荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

可灵AI宣布全系列视频模型上线“视频音效”功能，用户在使用可灵AI进行视频创作时，不仅能获得高质量的视频画面，更能体验到与视频精准匹配、富有空间感的立体声音效……

可灵AI 可灵可灵AI新功能
高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

阿里巴巴旗下高德地图正式上线创新AR打卡功能，通过深度整合AI技术与地图服务，为用户带来虚实融合的沉浸式打卡体验，无缝连接现实世界。该功能依托前沿AI空间融合技术，突破传统二维地图限制，首创3D立体打卡。用户打开最新版高德地图App，点击右上角 ”号即可轻松开启AR之旅。支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式，完成打卡后系统将自动生成并

今日大家都在搜的词：

热文

3 天
7天

Adobe推AI音效生成系统MultiFoley ，文字提示生成视频同步音效

TECNO发布全球最薄三折概念机PHANTOM Ultimate G Fold

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

闪剪AI：一键生成数字人营销视频，助力商家轻松实现内容获客

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

ZEGO AI Agent：支持一张图生成数字人

三维天地AI智能体应用落地场景：一键生成的“编译工厂”

ppt自动生成工具最好用的3个

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

今日大家都在搜的词：

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

华为Pura 80标准版7月23日开启预售

苹果iOS 26公测版本周发布：预计7月23日亮相

特斯拉Model3全球销量达300万辆夏日福利大放送

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米深圳大厦开园：卢伟冰现场喝小米粥

理想i8开启预定：7月29日上市预售价35-40万元

小米骨传导耳机2发布：699元 7月21日开售

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

站长商机