首页 > 业界 > 关键词  > EMAGE最新资讯  > 正文

EMAGE:上传音频就能生成全身动作 包括头部、嘴型、身体运动

2024-04-03 10:01 · 稿源:站长之家

划重点:

⭐️ 提出了 EMAGE 框架,用于从音频和掩码手势生成全身人类手势。

⭐️ 引入了新的全面共话数据集 BEATX,结合 MoShed SMPLX 身体与 FLAME 头部参数,提高了建模质量。

⭐️ EMAGE 利用掩码手势先验信息进行训练,采用 Masked Audio Gesture Transformer 实现音频到手势生成,取得了最先进的性能。

站长之家(ChinaZ.com)4月3日 消息:最近,多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架,旨在从音频和掩码手势生成全身人类手势。

image.png

EMAGE技术能实现输入音频生成全身动作,包括头部、嘴型、身体、手部和整体运动,跟之前Meta的audio2photoreal很像。用户只要上传音频(小于60秒),然后点击提交,输出结果将在输出中呈现3分钟。

image.png

他们引入了新的全面共话数据集 BEATX,该数据集结合了 MoShed SMPLX 身体和 FLAME 头部参数,进一步提高了建模质量,特别是对头部、颈部和手指动作的建模。EMAGE 在训练过程中利用了掩码手势的先验信息,以提高推断性能。该框架包括一个 Masked Audio Gesture Transformer,有助于联合训练音频到手势生成和掩码手势重建,有效地编码音频和身体手势提示。从掩码手势中编码的身体提示随后分别用于生成面部和身体动作。

此外,EMAGE 自适应地合并了音频的节奏和内容的语音特征,并利用了四个组合 VQ-VAE 来增强结果的保真度和多样性。实验证明,EMAGE 具有最先进的性能,能够生成具有完整的、音频同步的整体手势。

EMAGE 技术的问世将在各个领域产生深远影响,其中包括但不限于教育、医疗、娱乐等领域。研究团队表示,他们的代码和数据集已经公开提供,供学术和工业界使用。

项目入口:https://top.aibase.com/tool/emage

在线体验:https://huggingface.co/spaces/H-Liu1997/EMAGE

举报

  • 相关推荐
  • 球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作

    今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型 龙跃”(MindLoongGPT)。 龙跃大模型以自然语言驱动”为核心,构建了从多模态输入到高保真动作生成的完整闭环,颠覆传统运动控制范式。 也就是说,用户无需学习专业术语或操作复杂软件,仅需像与人类对话一样发出指令,例如以优雅的姿势递

  • 两人身穿手机“盔甲”入境被查:全身裹满iPhone、三星手机

    据海关发布官微通报,近日拱北海关所属青茂海关连续查获两名旅客绑藏旧手机进境案,共查获旧手机87台。当天13时许,一名身穿黑色T恤的旅客自青茂口岸旅检现场的海关绿色通道”进境,现场关员察觉其步态异常,遂将其拦截查验。经进一步检查,关员在该名旅客肋部、腰腹部、裆部及小腿部查获用塑料膜捆绑的旧手机共计40台。16时许,另一名身穿灰色T恤的旅客从同一通道进境。关员在该名旅客身体多个部位查获用黑色弹力绷带和塑料膜捆绑的旧手机共计47台。上述两名旅客均在两年内曾因走私受到过行政处罚又再次实施走私行为,海关已依法对其进行

  • 火山引擎推出豆包·语音播客模型:文本秒变双人对话播客,5 秒生成热点音频

    5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。

  • Gemini接管搜索、家桶秒变通用Agent ,以及Google Glass is so back!

    谁也没想到,Google I/O现场的最高潮来自“复活”的Google Glass有些翻车了的实时demo。2025 年 5 月 20 日,Google的年度开发者大会Google I/O在加州山景城举办。 与去年在举办之前一天被OpenAI“狙击”不同,今年的Google I/O,剑拔弩张的氛围让位给了派对的氛围,在ChatGPT带来的狼狈之后,Google已经回到了自己的节奏。 是的,它回到了饱和式发布的节奏。当天Google一口气发布了至少十�

  • 谷歌扩展Gemini的“AI帝国”,涵盖汽车、手表和电视

    自推出 Gemini 以来,谷歌已开始将其与 Gmail、谷歌云端硬盘、谷歌文档等自家服务相连接。如今,其愿景是将 Gemini 植入更广泛的 “安卓生态系统”,包括智能手表、汽车、电视等……

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 大厂Agent混战:复刻Manus的野心与困局

    国内AI智能体市场竞争激烈,字节、阿里、百度等大厂纷纷推出对标Manus的产品。字节"扣子空间"定位职场助手,阿里"心流"侧重深度研究,百度"心响"聚焦医疗法律等垂直场景。尽管产品形态各异,但都面临技术复制与流量争夺的双重挑战。当前智能体仅能完成基础任务,与Manus仍有差距。大厂通过免费策略抢占市场,而创业公司如GensPark已开始商业化探索。技术窗口期正在缩短,2025年被视为"智能体爆发年",这场围绕下一代AI入口的竞赛才刚刚开始。

  • 头部游戏护航实录!腾讯游戏安案例集正式发布

    腾讯云与腾讯游戏安全联合发布《全球游戏安全最佳实践及解决方案》报告,指出当前游戏行业面临四大安全挑战:1)AI外挂与云作弊结合的新型作弊手段;2)工作室24小时刷金导致游戏经济系统失衡;3)AI生成违规内容绕过传统过滤;4)小游戏面临模拟器刷量、DDoS攻击等风险。报告基于ACE服务全球1000+款游戏的经验,提出全生命周期安全防护方案,涵盖风险预警到技术落地的全链路解决方案,并收录《尘白禁区》《鸣潮》等实战案例。腾讯游戏安全ACE推出全场景防护体系,覆盖手游、端游和全平台,已与多家国内外TOP厂商合作。

  • 京东云升级JoyAgent 2.0:分钟级生成企业级专业数字员工

    京东云在上海发布九大AI产品,包括JoyAgent智能体2.0、JoyBuild大模型开发平台等,助力企业重构AI基础设施。京东集团技术委员会主席曹鹏表示,数字员工上岗率将成为衡量企业先进性的标准。JoyAgent 2.0具备三大核心能力:主动分析执行、丰富工具链和多智能体协同,已在研发、政务服务等场景深度应用。目前京东内部智能体数量超14000个,覆盖零售、物流等多个领域,显著提升工作效率。该平台还接入数十个大模型,提供100多个行业解决方案模板,支持企业快速构建专属智能体。

  • 谷歌I/O大会汇总:Gemini升级、AI搜索、Android XR等重磅更新

    谷歌的业务早已扩展至 Android、Chrome、搜索和 Workspace 以外 —— AI 是下一个主战场……