首页 > 业界 > 关键词  > SadTalker模型最新资讯  > 正文

西交大开源SadTalker模型 图片+音频秒变视频!

2023-04-19 15:16 · 稿源:站长之家

站长之家(ChinaZ.com)4月19日 消息:最近,西安交通大学的研究人员提出了SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。

image.png

为了实现音频驱动的真实头像视频生成,研究人员将3DMM的运动系数视为中间表征,并将任务分为两个主要部分(表情和姿势),旨在从音频中生成更真实的运动系数(如头部姿势、嘴唇运动和眼睛眨动),并单独学习每个运动以减少不确定性。最后通过一个受face-vid2vid启发设计的3D感知的面部渲染来驱动源图像。

image.png

论文链接:https://arxiv.org/pdf/2211.12194.pdf

项目主页:https://sadtalker.github.io/

研究人员使用SadTalker模型从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动。该技术可以控制眨眼频率,音频可以是英文、中文、歌曲。

这项技术在数字人创作、视频会议等多个领域都有应用,能够让静态照片动起来,但目前仍然是一项非常有挑战性的任务。SadTalker模型的出现解决了生成视频的质量不自然、面部表情扭曲等问题。该技术可以应用于数字人创作、视频会议等多个领域。

举报

  • 相关推荐
  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • AI眼镜的痛,Meta也治不了

    对于全球科技从业者而言,Meta Connect大会是一年一度的重要时刻。 不少人早早守在电脑前,想知道扎克伯格此次会带来哪些前沿技术产品,更对会上即将亮相的新款AI眼镜充满关注。 事实上,AI眼镜这类消费电子产品,在过去一年里已快速从“小众科技产品”走进大众视野,但看似火热的市场背后,AI眼镜当下的发展却陷入了明显瓶颈。 此前,国内AI眼镜市场曾掀起“百镜大

  • AI日报:小红书发布对话合成模型 FireRedTTS-2;百度文心新模型登顶Hugging Face榜首;xAI将裁员500人

    AI日报今日聚焦七大热点:小红书发布FireRedTTS-2语音合成模型,显著提升自然度;百度文心ERNIE-4.5登顶Hugging Face榜单;谷歌Gemini应用登顶美国免费榜;马斯克xAI裁员500人并战略转型;OpenAI拟大幅降低与微软分成比例;DeepMCPAgent开源框架提升AI代理生产力;蚂蚁发布AI开源全景图2.0;北京1400多所中小学推行人工智能通识课程。

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 腾讯云大数据升级Data+AI能力体系,构建AI-Ready的数据智能平台

    9月17日,腾讯云在数字生态大会上宣布升级大数据产品矩阵Data+AI能力体系,覆盖底层架构、数据平台、数据应用全流程,助力企业应对数据治理、多模态融合与智能化应用等挑战。通过云原生架构、Data+AI一体化和Agent增强,推出TCLake智能数据湖、流湖引擎和企业级搜索ES,提升数据处理效率与智能化水平。WeData平台升级为端到端一体化Data+AI平台,打通数据接入、治理、建模、训练到推理全链路。引入AI+Agent能力,通过Data Agent和ChatBI等创新实践,将智能能力融入数据使用各环节,助力企业释放数据价值,形成差异化AI竞争力。

  • 魅族StarV Snap AI拍照眼镜发布:售价1999 元起

    今日下午魅族22新品发布会上,一款名为StarV Snap的AI拍摄眼镜成为全场焦点。这款突破传统智能眼镜形态的产品以39克超轻人因工学设计惊艳亮相,通过50项人体工程学优化实现重量均匀分散,彻底解决"丑、重、硌"的行业痛点,鼻梁、耳部无压迫感的设计支持全天候舒适佩戴。 外观采用经典框型设计,磨砂质感镜框不仅时尚百搭适配多种脸型,更具备防指纹沾染特性,

  • Data+AI协同创新,华为云稳居中国大数据平台市场榜首

    IDC最新报告显示,2024年中国大数据平台市场全面向AI转型,华为云以26.9%的份额连续五年位居第一。报告指出,企业正推动数据与AI统一管理,华为云通过DataArts智能底座实现四层架构转型,加速数据到知识的转化。金融行业成为重点应用场景,华为云在金融云市场持续领先。9月将举办全球混合云数智融合高峰论坛,深入探讨数据与AI融合推动行业智能化升级。

  • 小米开启澎湃OS 3 Beta版最新招募:支持小米14、K70等机型

    小米澎湃OS 3 Beta版于9月24日启动招募,覆盖MIX Fold 4、MIX Flip、小米14 Ultra、14 Pro及钛金属版(卫星通讯)、小米14、Redmi K70系列四款机型和小米平板6S Pro 12.4共12款设备。招募采用分批推送机制,每机型设两批次,首批满员后启动第二批,入选用户优先获得更新。正式版将于10月15日推送,逐步扩大覆盖。该系统基于自研底层内核,通过深度优化微架构流水线,精准识别CPU空转,配合一体化调频技术,整体任务执行效率提升19%,带来更流畅体验。此次招募既为用户提供抢先体验机会,也通过反馈助力系统优化,强化小米生态竞争力。

今日大家都在搜的词: