西交大开源SadTalker模型图片+音频秒变视频！

2023-04-19 15:16 · 稿源：站长之家

站长之家（ChinaZ.com）4月19日消息:最近，西安交通大学的研究人员提出了SadTalker模型，通过从音频中学习生成3D运动系数，使用全新的3D面部渲染器来生成头部运动，可以实现图片+音频就能生成高质量的视频。

为了实现音频驱动的真实头像视频生成，研究人员将3DMM的运动系数视为中间表征，并将任务分为两个主要部分（表情和姿势），旨在从音频中生成更真实的运动系数(如头部姿势、嘴唇运动和眼睛眨动)，并单独学习每个运动以减少不确定性。最后通过一个受face-vid2vid启发设计的3D感知的面部渲染来驱动源图像。

论文链接:https://arxiv.org/pdf/2211.12194.pdf

项目主页:https://sadtalker.github.io/

研究人员使用SadTalker模型从音频中学习生成3D运动系数，使用全新的3D面部渲染器来生成头部运动。该技术可以控制眨眼频率，音频可以是英文、中文、歌曲。

这项技术在数字人创作、视频会议等多个领域都有应用，能够让静态照片动起来，但目前仍然是一项非常有挑战性的任务。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。

（举报）

相关推荐

关键词：

科杰科技入选赛迪AI Infra平台市场研究报告，引领Data&AI数据基础设施新范式

近日，赛迪顾问发布《2025中国AI Infra平台市场研究报告》，全面梳理中国AI基础设施平台市场格局、技术趋势与竞争态势。报告显示，2024年中国AI Infra平台市场规模达345亿元，预计2025年将飙升至673亿元，同比增长95.1%。企业AI应用正从单点验证迈向嵌入核心业务流的深度阶段，对基础设施提出更高要求。科杰科技凭借Data&AI融合架构、湖仓一体引擎及企业级AI落地能力强势入选，位列“挑战者”象限，彰显其在Data&AI领域的领先地位。

AI基础设施市场研究报告 Data&AI融合
TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

TabTab是一款全链路AI数据分析助手，核心功能包括多源数据连接（支持文档、数据库、电商平台等）、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互，降低分析门槛，让非技术人员也能快速完成客户洞察、销售业绩等分析，显著提升效率。产品定位中立，致力于构建多元化AI效率提升生态。

数据驱动效率提升智能体
DTC2025|TCL华星印刷OLED小尺寸突破，全产业技术创新布局

2025年11月14日，TCL华星在苏州举办全球显示生态大会（DTC2025），以“臻图视界，印韵生辉”为主题。大会展示了AI技术成果及多款LCD、OLED、MLED新品，发布《视觉健康白皮书2.0》。TCL华星强调AI与显示深度融合，推出“AI五星架构”及星智X-Intelligence 3.0大模型，推动产业升级。重点技术包括印刷OLED、Micro LED等创新产品，如全球首款Real Stripe RGB OLED手机显示。公司致力于通过绿色制造和视觉健康技术，打造可持续显示生态，与合作伙伴共促产业转型。

TCL华星显示生态大会印刷OLED
软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

在“软件定义汽车”浪潮下，智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而，传统软件测试模式成本高、耗时长，难以覆盖复杂场景，易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破：需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式，测试工程师角色转向质量策略师。到2027年，超80%企业将集成AI测试工具，汽车行业2025年成为转型关键节点。

软件定义汽车智能汽车座舱体验
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
火山引擎Data Agent赋能金融行业，打造智能投顾与精准营销新范式

在平安保险AIGC嘉年华上，火山引擎专家指出，企业正从“数据驱动”迈向“认知驱动”新时代，核心是构建沉淀集体智慧的“企业级认知引擎”。火山引擎推出数据智能体Data+Agent，定位新一代企业AI数字专家，具备主动思考、分析与行动能力，助力构建“数据大脑”。其聚焦智能分析Agent与智能营销Agent两大场景：前者实现“提问即生产”的数据消费新模式，提升金融业务分析效率90%；后者依托“一客一策”个性化服务，动态融合客户数据，突破传统标签限制。该产品已在多行业验证，营销点击率提升30%、投资回报率提高80%。未来将持续强化预测与模拟能力，深化金融、制造、医疗等领域的智能决策应用。

企业级认知引擎数据驱动认知驱动
小米超级小爱AI大模型推出随心修图功能

小米宣布超级小爱AI大模型推出随心修图功能，用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式：在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求：超级小爱需v7.8.50及以上，相册编辑功能需v2.1及以上，相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级，支持全局多模态交互和自然语音搜索，提升使用体验。

小米超级小爱 AI大模型
星耀南山、创见未来，「X-Day」西丽湖路演社创业之星Next Star专场燃动科创热潮

11月15日，“X-Day”西丽湖路演社在深圳大学城举办“创业之星”Next+Star百万奖金全球赛专场，联动政府、投资、金融等多方资源，构建资本对接桥梁，助力创新项目落地南山。活动汇聚6个硬核项目，覆盖AI、生物医药等领域，展现前沿产业活力。平台通过常态化路演与赛事联动，已促成超5.3亿元股权融资及2.34亿元银行授信，持续优化区域科创生态，彰显南山“鼓励创新、支持创业”的浓厚氛围。

创业之星投贷保联动路演社
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入

今日大家都在搜的词：

热文

3 天
7天

西交大开源SadTalker模型图片+音频秒变视频！

科杰科技入选赛迪AI Infra平台市场研究报告，引领Data&AI数据基础设施新范式

TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

DTC2025|TCL华星印刷OLED小尺寸突破，全产业技术创新布局

软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

火山引擎Data Agent赋能金融行业，打造智能投顾与精准营销新范式

小米超级小爱AI大模型推出随心修图功能

星耀南山、创见未来，「X-Day」西丽湖路演社创业之星Next Star专场燃动科创热潮

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

小米超级小爱AI大模型推出随心修图功能

站长商机

西交大开源SadTalker模型 图片+音频秒变视频！

今日大家都在搜的词：

热文

站长商机

西交大开源SadTalker模型图片+音频秒变视频！