首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象

2024-01-04 17:49 · 稿源:站长之家

站长之家(ChinaZ.com)1月4日 消息:Meta AI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。

这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。这些虚拟人物不仅在视觉上非常逼真,而且能够准确地反映出对话中的手势和表情细节,例如指点、手腕抖动、耸肩、微笑和嘲笑等。

image.png

项目及演示:https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/

代码:https://top.aibase.com/tool/audio2photoreal

Demo:https://colab.research.google.com/drive/1lnX3d-3T3LaO3nlN6R8s6pPvVNAk5mdK

这个系统的工作原理如下:

首先,Meta AI团队捕获了一组丰富的双人对话数据集,这些数据集能够提供逼真的重建。然后,他们构建了一个复合运动模型,其中包括面部运动模型、引导姿势预测器和身体运动模型。

在生成面部运动时,系统使用预训练的唇部回归器处理音频,提取与面部运动相关的特征,并利用条件扩散模型生成面部运动。

在生成身体运动时,系统根据音频自回归地输出每秒1帧的向量量化(VQ)引导姿势。然后,将音频和引导姿势输入到扩散模型中,以每秒30帧的速度生成高频身体运动。

最后,生成的面部和身体运动被传入训练好的虚拟人物渲染器,生成逼真的虚拟人物。

最终展示的结果是根据音频生成的全身逼真虚拟人物,这些虚拟人物能够表现出对话中的细微表情和手势动作。

这项技术的发布将为虚拟人物的创造和应用领域带来巨大的进步。无论是在游戏开发、虚拟现实还是电影制作领域,这种能够从音频中生成逼真虚拟人物的系统都将发挥重要作用。

Meta AI的成果再次展示了他们在人工智能领域的卓越能力和创新精神。他们不断推动着技术的边界,为我们带来了一个全新的虚拟人物生成的时代。我们可以期待在不久的将来,这种技术将成为我们生活中不可或缺的一部分。

举报

  • 相关推荐
  • Meta裁员约7800人 扎克伯格:利用员工数据训练AI效果更佳

    Meta在今年4月宣布裁减约10%的员工,波及约7800人。 与多数企业在决策后迅速执行裁员不同,Meta提前近一个月通知了员工,但始终未公布具体的裁员名单。 根据More Perfect Union公开的内部会议内容,Meta首席执行官马克扎克伯格在全员会议上表示,公司正在利用员工的工作数据来训练内部AI模型。 扎克伯格称,AI模型可以通过观察真正聪明的人”如何工作来学习,因此让AI看到这

  • 美团Tabbit的百日狂飙

    过去,医疗卫生条件差,新生儿很容易在百日内夭折,过了百日后夭折风险便会显著下降,民间逐渐形成了“百日宴”的传统。 人如此,产品亦然。 3月2日,美团旗下光年之外团队推出的AI Native浏览Tabbit开启公测,经过100天、12次版本迭代后,于6月9日,踩在高考周期内,交出了1.0的答卷。 一位内部人士此前告诉光子星球,团队有很多想法,但不确定哪些是用户真正愿意买�

  • 混合云+Data+AI,华为云Stack新战略定义政企数智跃升新范式

    华为云INSPIRE大会在上海举办,以“全新混合云,Data+AI定义政企数智跃升新范式”为主题。论坛汇聚政务、金融等行业客户,探讨政企如何基于混合云融合数据与AI技术,实现核心生产力跃升。华为发布“混合云+Data+AI”战略,升级Agentic Infra、AI-Ready数据平台等三大能力,并发布白皮书。行业标杆客户分享实践,如浦发银行构建韧性云底座、京能集团推出“擎睿”大模型、宝钢用AI炼钢等。华为云Stack已服务全球超5500家政企客户。

  • 599 元!全新寻影 Meet Flip 亮相,翻折式 4K AI 会议摄像头震撼登场

    OBSBOT寻影携手李雪琴推出4K AI会议摄像头Meet Flip,采用一体化翻折设计,重仅37.7克,主打移动办公与在线教育场景。搭载1/2英寸CMOS,支持4K 30fps与PDAF对焦,内置AI自动构图、手势控制及智能降噪,提升会议专注度。配合“寻影大师”软件实现美颜、背景虚化等功能,并具备AI魔记提供语音转写与纪要生成。产品即插即用,售价699元,首发优惠599元。

  • 腾讯音乐(TME)旗下两大平台联袂打造AsiaTop音乐节,全球乐迷汇聚雪邦国际赛道

    TME旗下JOOX与QQ音乐等倾力呈现的2026 AsiaTop音乐节,在马来西亚雪邦赛道盛大启幕。首日8组跨国艺人以多元曲风与强劲唱功点燃现场,从新锐NexT1DE的清澈少年气,到Aina Abdul、Belle Sisosk等的实力演绎,再到NMIXX、WINNER的炸裂舞台,高潮迭起。DAESUNG在BIGBANG二十周年节点献唱经典,引发全场合唱;KUN压轴以极致舞台美学打造沉浸世界。现场还设有品牌互动、餐饮补给等一站式体验。次日,CxM(Seventeen)、TWS等艺人将延续这场亚洲顶级舞台的炽热。

  • UNI AI(一元AI)Beta版本正式上线,开启AI3.0智能生态新阶段

    AI迈向执行时代,核心从“会回答”转向“能办事”。UNI AI聚焦真实场景,整合外卖、购物、打车、通信等服务,将用户需求直接转化为完整任务:理解目标、拆解步骤、连接平台并推进交付,从而减少操作,缩短路径,快速获得结果。它正将AI从聊天助手升级为统一执行入口,让用户少切换、更高效地完成生活服务。

  • 华为鸿蒙7开发者Beta版推送!首创内核快启技术 应用启动更快

    华为近日发布HarmonyOS 7操作系统,同步开启开发者Beta1版招募。该版本安装包约20GB,聚焦系统能力增强、开发工具效率提升、AI辅助编程、多设备适配等七大方面。首创鸿蒙内核应用快启技术,攻克性能与内存难题;升级鸿蒙音频引擎及3DGS空间渲染与重建能力,强化多设备协同体验。首批支持机型包括Mate 80 Pro、Pura 90 Pro Max等。华为提醒测试用户遵守保密协议,禁止截图、录屏等传播行为。

  • 腾讯云面向Agent升级数据平台:DataBuddy、WeData与AI原生数据底座亮相

    腾讯云宣布面向Agent升级全栈数据平台,通过DataBuddy、WeData和AI原生数据底座三层架构,构建人机协同的智能入口、统一控制面和数据底座。DataBuddy作为生产级数据智能体,可自动完成数据建模、ETL开发等复杂任务,将重复开发工作量降低80%,研发效率提升5-10倍。WeData通过统一语义层将自然语言转SQL准确率提升至90%以上。AI原生数据底座从存储、计算、系统到数据分析四层面智能化升级,支持多模态数据处理和Agent协同工作。同时,面向政务、金融等行业升级TBDS私有化平台,加速Agent规模化落地。

  • 数据要素进入AI时代:趣链科技布局“AI+Data”

    AI竞争正从“拼算力”转向“拼数据”,高质量、可信、合规的数据成为大模型新瓶颈。趣链科技提出,可信数据基础设施下一程是“AI+Data”,通过“区块链+隐私计算”技术构建覆盖数据全生命周期的平台,已落地200余项应用,服务超300家机构。其AI高质量数据集公共服务平台实现从数据需求到模型微调的全流程闭环,并已在工业、文博等领域成功应用,推动数据要素进入AI时代。

  • 沉浸且便携 三星Galaxy Tab S11系列的大屏让球赛可以随时看

    四年一度的球赛季与父亲节相遇,三星Galaxy Tab S11系列平板成为送礼佳选。它轻薄便携,可随时随地观看比赛;配备11英寸或14.6英寸动态AMOLED屏幕,支持HDR10+和120Hz高刷,画质沉浸;IP68防护和防眩光技术适合户外使用;AKG四扬声器带来身临其境的音效。此外,AI功能如即圈即搜、翻译页面,以及强大处理器支持多任务处理,满足看球、办公和娱乐需求,是陪伴父亲度过足球夏天的理想礼物。

今日大家都在搜的词:

热文

  • 3 天
  • 7天