首页 > AI头条  > 正文

字节开源嘴型同步模型LatentSync,实现超真实口型同步

2025-01-06 09:38 · 来源: AIbase基地

近日,字节跳动发布了名为 LatentSync 的新型口型同步框架,旨在利用音频条件潜在扩散模型实现更精确的口型同步。该框架基于Stable Diffusion,针对时间一致性做了优化。

与以往的基于像素空间扩散或两阶段生成的方法不同,LatentSync 采用端到端的方式,无需中间运动表示,能够直接建模复杂的音频与视觉之间的关系。

image.png

在 LatentSync 的框架中,首先使用 Whisper 将音频频谱图转换为音频嵌入,并通过交叉注意力层将其集成到 U-Net 模型中。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接,作为 U-Net 的输入。

在训练过程中,采用一步法从预测噪声中估计出干净的潜在变量,然后进行解码以生成干净的帧。同时,模型引入了 Temporal REPresentation Alignment(TREPA)机制,以增强时间一致性,确保生成的视频在口型同步准确性的同时,能够在时间上保持连贯。

为了展示该技术的效果,项目提供了一系列示例视频,分别展示了原始视频与经过口型同步处理后的视频。通过示例,用户可以直观地感受到 LatentSync 在视频口型同步方面的显著进步。

原始视频:

输出视频:

此外,项目还计划开源推理代码和检查点,方便用户进行训练和测试。对于想要尝试推理的用户,只需下载必要的模型权重文件,即可进行操作。完整的数据处理流程也已设计好,涵盖了从视频文件处理到面部对齐的各个步骤,确保用户能够轻松上手。

模型项目入口:https://github.com/bytedance/LatentSync

划重点:

🌟 LatentSync 是一个基于音频条件潜在扩散模型的端到端口型同步框架,无需中间运动表示。  

🎤 该框架利用 Whisper 将音频频谱图转换为嵌入,增强了模型在口型同步过程中的准确性和时间一致性。  

📹 项目提供了一系列示例视频,并计划开源相关代码和数据处理流程,方便用户使用和训练。  

  • 相关推荐
  • 三星苹果全面同步!Galaxy S26+被砍:超薄Edge取而代之

    今年苹果新iPhone序列已经确认,iPhone17系列将砍掉Plus版本,被主打超薄的iPhone17Air取代。 三星作为苹果的老对手,也不约而同的使用了同样的策略。 Winfuture爆料称,三星将在明年1月发布Galaxy S26系列,共三款机型,分别是Galaxy S26、Galaxy S26Edge和Galaxy S26Ultra。 其中,延续了多年的Galaxy S26已经取消,被Galaxy S26Edge取而代之。

  • 字节跳动TRAE2.0真的好用吗?同类型AI产品上哪找?

    字节跳动TRAE2.0 AI编程工具升级亮点:1)新增语音交互功能,支持中英文混合输入,实现"说话写代码";2)Builder模式迭代后项目生成成功率提升至92%,复杂需求可一次性跑通;3)免费版每月100次调用额度,支持GPT-4o和Claude-3.5模型;4)五大隐藏技巧:语音调试、图片生成代码、API批量测试等可提升300%效率;5)针对中文开发者优化,支持阿里云/腾讯云SDK调用。实测3分钟

  • 苹果研发加速:至少7款自研处理器同步开发中

    据媒体报道,随着2025年下半年新品发布季临近,苹果公司正迎来其自研芯片战略的关键转折点。 最新行业消息显示,苹果正在同步开发7款全新处理器,覆盖移动计算、可穿戴设备和无线通信三大领域,标志着其技术自主化进程进入全新阶段。 在移动处理器方面,苹果将推出A19系列芯片组。其中标准版A19将首次搭载于代号Tilos的iPhone 17 Air机型,而性能更强的A19 Pro版本则会为i

  • AI日报:字节发布同声传译模型Seed LiveInterpret 2.0;秘塔搜索API上线;Lovart AI正式版全球发布

    AI日报栏目报道了多项AI领域最新进展:1)字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0,实现中英高质量实时翻译;2)秘塔搜索API上线,提供低价多模态搜索服务;3)Lovart AI正式版发布,作为首个AI设计Agent重塑创作流程;4)李沐团队推出Higgs Audio v2语音合成模型,融合千万小时训练数据;5)OpenAI开发Sora2视频生成模型,与谷歌Veo3展开竞争;6)OpenAI与Oracle合作扩展Stargate项目,�

  • 理想i8正式开启静态体验!全国56城102店同步开放

    理想汽车宣布全新纯电SUV i8将于7月18日开启静态体验,全国56城102家零售中心同步开放。i8定位家庭六座纯电SUV,7月17日开启预订,18日启动城市巡展,7月29日上市发布,预售价35万元以上。新车采用双电机四驱系统,总功率400千瓦,最高时速180公里/小时,提供90.1/97.8千瓦时两种电池规格,CLTC续航分别为670/720公里,支持5C超充。外观设计融合理想MEGA元素,内饰延续家族风格,配备后排娱乐屏、车载冰箱等豪华配置。

  • AI日报:通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔;谷歌发布Gemini 2.5 Flash-Lite 稳定版

    本文介绍了AI领域多项重要进展:1)谷歌发布Gemini 2.5 Flash-Lite稳定版,平衡速度与成本;2)腾讯混元ASR语音大模型接入ima平台;3)阿里开源Qwen3-Coder编程大模型;4)360将推智能眼镜和AI录音笔;5)夸克健康大模型通过医师评测;6)零一万物发布企业级大模型平台;7)Hedra推出低成本AI视频代理;8)Gemini2.5革新图像理解能力;9)Meta推出创新文本处理模型AU-Nets;10)苹果AI团队或寻求第三方合

  • 荣耀MagicGUI大模型发布并开源!Magic V5首发搭载:跨应用/设备自动化

    该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓,是荣耀的全新人工智能战略计划,将从智能手机制造商向全球AI终端生态公司全面转型。 李健宣布,未来5年荣耀将投入100亿美元,与全球合作伙手共建AI设备生态。 分为三个实施阶段: 第一阶段是智慧手机,荣耀将与合作伙伴携手突破技术边界,共同创造代理型人工智能时代的新范式; 第二阶段是智慧生态系统,荣耀将打�

  • 三星Galaxy Z Fold7, Galaxy Z Flip7 以及Galaxy Watch8系列全球正式开售

    三星电子于2025年7月25日发布全新折叠屏手机Galaxy Z Fold7和Z Flip7,以及Galaxy Watch8系列智能手表。Z Fold7采用超轻薄设计,配备7.6英寸主屏和AI多任务处理功能;Z Flip7延续竖向折叠设计,外屏升级至3.4英寸。两款新机均搭载第三代骁龙8处理器,支持Galaxy AI功能如实时翻译、笔记辅助等。Galaxy Watch8系列新增健康监测功能,包括抗氧化指数测量和睡眠分析。产品提供多种配色,即日起全球开售,暗影蓝为最受欢迎配色。

  • 三星Galaxy Watch新品正式开售 解锁健康生活“星”体验

    三星于7月25日发布新一代Galaxy Watch系列智能手表,包括Galaxy Watch8、Watch8 Classic和升级版Watch Ultra(2025)。新品采用全新天圆地方设计,配备3nm处理器、3000尼特屏幕和双频GPS,支持心率、血压、抗氧化指数等健康监测功能。Watch8系列起售价2299元,Classic版3499元起,Ultra版4999元。产品线覆盖从日常健康管理到户外运动场景,通过睡眠指导、跑步教练等功能提供个性化健康方案。即日起可在三星商城、京东等渠道购买,部分机型享购机优惠。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

今日大家都在搜的词: