EMAGE：上传音频就能生成全身动作包括头部、嘴型、身体运动

2024-04-03 10:01 · 稿源：站长之家

划重点:
⭐️ 提出了 EMAGE 框架，用于从音频和掩码手势生成全身人类手势。
⭐️ 引入了新的全面共话数据集 BEATX，结合 MoShed SMPLX 身体与 FLAME 头部参数，提高了建模质量。
⭐️ EMAGE 利用掩码手势先验信息进行训练，采用 Masked Audio Gesture Transformer 实现音频到手势生成，取得了最先进的性能。

站长之家（ChinaZ.com）4月3日消息:最近，多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架，旨在从音频和掩码手势生成全身人类手势。

EMAGE技术能实现输入音频生成全身动作，包括头部、嘴型、身体、手部和整体运动，跟之前Meta的audio2photoreal很像。用户只要上传音频（小于60秒），然后点击提交，输出结果将在输出中呈现3分钟。

他们引入了新的全面共话数据集 BEATX，该数据集结合了 MoShed SMPLX 身体和 FLAME 头部参数，进一步提高了建模质量，特别是对头部、颈部和手指动作的建模。EMAGE 在训练过程中利用了掩码手势的先验信息，以提高推断性能。该框架包括一个 Masked Audio Gesture Transformer，有助于联合训练音频到手势生成和掩码手势重建，有效地编码音频和身体手势提示。从掩码手势中编码的身体提示随后分别用于生成面部和身体动作。

此外，EMAGE 自适应地合并了音频的节奏和内容的语音特征，并利用了四个组合 VQ-VAE 来增强结果的保真度和多样性。实验证明，EMAGE 具有最先进的性能，能够生成具有完整的、音频同步的整体手势。

EMAGE 技术的问世将在各个领域产生深远影响，其中包括但不限于教育、医疗、娱乐等领域。研究团队表示，他们的代码和数据集已经公开提供，供学术和工业界使用。

项目入口：https://top.aibase.com/tool/emage

在线体验:https://huggingface.co/spaces/H-Liu1997/EMAGE

（举报）

相关推荐

关键词：

自研遇阻！苹果考虑用谷歌Gemini升级Siri

苹果正与谷歌就使用Gemini AI引擎为新一代Siri提供技术支持进行初步谈判，这一动向表明苹果可能进一步将人工智能能力外包，成为其AI战略的关键一步。据知情人士透露，这家iPhone制造商近期已与Alphabet旗下谷歌接触，商讨合作构建一款定制化AI模型，以用于明年预计推出的新版本Siri。谷歌目前已开始训练一款可在苹果服务器上运行的模型。苹果在生成式人工智能领域起步�

苹果谷歌 Siri
荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
GEO排名优化：AI如何重新定义搜索引擎的可见性规则？

文章探讨AI搜索时代下，传统SEO向GEO（生成引擎优化）的转变。核心指出GEO通过多维数据融合与AI理解，构建企业可信数字实体，实现智能推荐。技术决策者需关注从关键词匹配转向实体价值理解的底层逻辑革命，提前布局以抓住AI对话流量入口。

AI搜索 GEO 流量规则
企业品牌在AI时代的生存之道:深度解析GEO优化的商业价值

随着传统搜索引擎流量红利见顶，AI生成引擎正成为新的流量洼地。全球超3亿用户使用ChatGPT等AI工具获取信息，企业面临战略转折点。用户行为变革：不再满足搜索结果，而是期望直接、准确的答案。AI依赖语义理解，企业需建立权威性和语义关联，通过高质量内容在AI平台留下印象。GEO优化成为关键，需系统性策略和多平台协同。专业服务商可提供定制方案，助企业抢占AI时代先机。
当GPT-5遇上Gemini 2.5，谁更适合你的业务？这份对比报告说了算

某跨境电商CTO复盘会上展示：GPT-5 Standard处理百万级商品描述时，费用比Gemini 2.5 Flash-Lite高35%，响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试，提供透明价格拆解和性能雷达图，帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%，而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价，生成定制化决策报告，用数据替代经验主义，提升技术选型效率。

大模型选型参数迷雾场景错配
谷歌透露Gemini每次回答消耗能量：相当于微波炉运行1秒钟

近日，谷歌发布了一份技术报告，详细说明了其Gemini大模型在每次查询中消耗的能源量。据谷歌介绍，这是迄今为止大型人工智能公司发布的最透明估算，也是研究人员期待已久的报告。报告称，Gemini应用的文字回答平均每次消耗0.24瓦特小时（Wh）的能量，大约相当于运行微波炉一秒钟，并排放0.03克二氧化碳当量。据此前媒体报道，谷歌近日发布Gemini系列最轻量版本Gemma 3

谷歌 Gemini大模型能源消耗
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
荐AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

本文介绍了AI日报栏目，聚焦人工智能领域最新动态。主要内容包括：腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能，以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

AI 3D重建腾讯开源
豆包1.5轻量版 vs Gemini 2.5闪存版：生成5000字深度文章，哪个模型更合适？

AIbase选型工具通过多维度数据对比，帮助用户精准选择AI模型。文章以豆包和Gemini为例，展示平台如何解决模型选型痛点：自动生成对比报告，评估关键指标如术语准确性、本土案例适配度等。实际案例显示，使用该工具后内容团队效率提升40%，编辑成本下降65%。核心价值在于用数据驱动决策，规避局部优势导致的全局误判，实现场景化精准匹配。

文章搜索核心标签 AI选型
Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

面对琳琅满目的大模型API，开发团队常陷入选择困境。文章指出，2024年既是机遇也是挑战的时代，闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例，前者综合能力强适合多语言场景，后者在代码生成和成本控制上优势明显。建议开发者明确需求，通过实际测试验证模型表现，理性选择最适合的方案。

大模型API 模型选型 AI开发

今日大家都在搜的词：

热文

3 天
7天

EMAGE：上传音频就能生成全身动作包括头部、嘴型、身体运动

自研遇阻！苹果考虑用谷歌Gemini升级Siri

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

GEO排名优化：AI如何重新定义搜索引擎的可见性规则？

企业品牌在AI时代的生存之道:深度解析GEO优化的商业价值

当GPT-5遇上Gemini 2.5，谁更适合你的业务？这份对比报告说了算

谷歌透露Gemini每次回答消耗能量：相当于微波炉运行1秒钟

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

荐AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

豆包1.5轻量版 vs Gemini 2.5闪存版：生成5000字深度文章，哪个模型更合适？

Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

今日大家都在搜的词：

热文

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

抖音升级AI内容标识功能上线两项核心功能

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

小米汽车8月交付量超3万台全年交付量有望冲击42万

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

华为MatePad Mini官宣9月4日发布

今日七夕节微信 520 元大额红包限时上线

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

史上最大Mate！华为智慧屏MateTV将于9月4日发布

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发

华为MatePad Mini外观公布支持蜂窝网络通话功能

华为上半年营收4270亿元同比增长3.95%：净利润371.95亿元

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

小米回应升级Beta后手机很烫：系统编译致短期功耗增加

站长商机

EMAGE：上传音频就能生成全身动作 包括头部、嘴型、身体运动

今日大家都在搜的词：

热文

站长商机

EMAGE：上传音频就能生成全身动作包括头部、嘴型、身体运动