微软AI研究提出AI模型HMD-NeMo：可基于部分手部动作准确生成全身动作

2023-11-14 16:00 · 稿源：站长之家

**划重点:**
1. 🌐 微软Mixed Reality & AI Lab的研究人员提出HMD-NeMo，一种新的神经网络模型，能够在手部部分可见的情况下生成真实和准确的全身动作。
2. 🧠 HMD-NeMo采用时空编码器和新颖的可调节时间蒙版token（TAMT），在实时和在线情景下操作，解决了虚拟现实中全身动作生成的挑战。
3. 🚀 该方法通过在Motion Controllers和Hand Tracking等场景下进行广泛评估，并在多个数据集上超越现有方法，展示了其在解决虚拟现实中生成全身动作的问题上的重要进展。

站长之家(ChinaZ.com) 11月14日消息:在混合现实场景中，生成准确和真实的全身虚拟角色动作一直是一个持久性的挑战。传统解决方案通常使用头戴式设备（HMDs），依赖有限的输入信号，如头部和手部的6自由度(DoF)。然而，最近的进展在从头部和手部信号生成全身动作方面取得了令人印象深刻的表现。然而，它们普遍存在一个共同的限制，即假设手部完全可见。这一假设在手部跟踪依赖于自我中心传感器的情况下成立，由于HMD的有限视野，导致手部部分可见。

来自微软Mixed Reality & AI Lab的研究人员引入了一种创新的方法 - HMD-NeMo（HMD神经运动模型）。这一统一的神经网络能够在手部仅部分可见的情况下生成真实和准确的全身动作。HMD-NeMo实时在线运行，适用于动态混合现实场景。

HMD-NeMo的核心是一种时空编码器，具有新颖的可调节时间蒙版令牌（TAMT）。这些令牌在没有手部观测的情况下鼓励生成真实的动作。该方法采用循环神经网络高效捕捉时间信息，并使用变压器模型复杂地建模不同输入信号组件之间的关系。

研究纸提出了两种评估场景:Motion Controllers（MC），其中使用运动控制器跟踪手部，和Hand Tracking(HT)，其中使用自我中心手部跟踪传感器跟踪手部。结果表明，HMD-NeMo是第一种能够在统一框架内处理这两种情况的方法。在HT场景中，即使手部可能完全或部分不在视野中，可调节时间蒙版token在维持时间连贯性方面表现出色。

该方法使用损失函数进行训练，考虑数据准确性、平滑度以及在SE（3）中进行人体姿势重建的辅助任务。实验证明了HMD-NeMo在AMASS数据集上的出色性能，该数据集包含转换为3D人体网格的大量人体运动序列。采用关节位置误差(MPJPE)和关节速度误差(MPJVE)等指标评估HMD-NeMo的性能。

与运动控制场景中的最先进方法进行比较显示，HMD-NeMo实现了更高的准确性和更平滑的动作生成。此外，通过跨数据集的评估，证明了该模型的泛化能力，在多个数据集上优于现有方法。

深入研究了不同组件的影响，包括TAMT模块在处理缺失手部观测方面的有效性。研究表明，HMD-NeMo的设计选择，如时空编码器，对其成功起到了重要作用。

HMD-NeMo在解决混合现实场景中生成全身虚拟角色动作的挑战方面迈出了重要的一步。其在处理运动控制和手部跟踪等多种场景中的多功能性，以及出色的性能指标，使其成为该领域的开创性解决方案。

论文网址:https://www.microsoft.com/en-us/research/publication/hmd-nemo-online-3d-avatar-motion-generation-from-sparse-observations/

（举报）

相关推荐

关键词：

全球首款生成式人形机器人运动大模型发布：可根据指令生成跑步、舞蹈等连贯动作

今日上午，国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院，正式发布了全球首款生成式人形机器人运动大模型龙跃”（MindLoongGPT）。龙跃大模型以自然语言驱动”为核心，构建了从多模态输入到高保真动作生成的完整闭环，颠覆传统运动控制范式。也就是说，用户无需学习专业术语或操作复杂软件，仅需像与人类对话一样发出指令，例如以优雅的姿势递

人形机器人生成式模型运动控制
苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

AI 的“推理能力”或许远没有我们想象中的那么强……

苹果AI AI模型 AI推理能力
特朗普政府将“AI安全研究所”去“安全化”

政府的优先级已非常明确：美国的 AI 未来，将建立在“创新”而非“限制”之上……

AI去安全化特朗普政府 AI模型
全身瘫痪小伙带全家住集装箱种菜：希望用双手创造价值

在重庆某乡村，有一处特别的景象:几个大棚旁，一个集装箱静静伫立，里面住着特殊的一家人。36岁的黎夏全身瘫痪，仅有手指和脚趾能轻微活动，却带着母亲和妹妹在此开启了种菜生活。一家人最初住进集装箱时，条件十分艰苦。集装箱空间狭小，生活设施简陋，但他们没有被困难吓倒。黎夏的母亲和妹妹全力支持他的想法，一家人齐心协力，在大棚里种下了空心菜、菠菜

重庆乡村生活特殊家庭农业创业故事
如何用 AI工具生成论文选题

本教程介绍如何利用DeepSeek AI工具生成学术论文选题。首先需要明确自身专业、研究方向、兴趣领域等研究信息。通过特定格式构建提问指令，在DeepSeek平台输入后，AI会基于算法分析生成10个相关选题。用户需从研究价值、创新性、可行性等维度评估选题，筛选出最适合的研究方向。该工具能有效帮助研究者快速获取选题思路，提高学术论文创作效率。

DeepSeek 论文选题学术研究
荐AI日报：谷歌推最强AI全家桶Google AI Ultra；腾讯混元宣布模型矩阵全面升级；豆包·语音播客模型发布

本文汇总了近期AI领域的重要动态：1)谷歌推出249.99美元/月的AI Ultra订阅计划，提供最强AI模型和高级功能；2)腾讯混元模型升级，新增视觉推理T1-Vision和语音对话模型；3)美图获阿里2.5亿美元投资，将在电商和AI领域合作；4)豆包推出语音播客模型，实现文本快速转音频；5)百度文心X1 Turbo获信通院最高评级；6)谷歌发布Flow AI剪辑工具，集成Veo3等三大模型；7)谷歌Veo3支持4K视频生成；8)Imagen4图像模型发布；9)Gemini2.5 Pro新增并行推理功能；10)谷歌推出虚拟试衣工具；11)公测AI编程助手Jules；12)苹果计划在iOS19开放AI模型；13)京东云推五大免费AI营销工具；14)字节开源多模态模型BAGEL；15)英伟达发布物理推理模型Cosmos-Reason1。

人工智能 AI产品技术趋势
苹果炮轰AI推理模型：全是假思考！所谓思考只是一种假象

有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。苹果团队认为，现有评估主要集中在既定的数学和编码基准上，看模型最终答案是否正确，但可能存在模型训练时见过类似题目。并且，这些评估大都缺乏对思考过程质量”的分析，比如中间步骤是否逻辑一致、是否绕弯路等。为了更客观测试推理模型的推理能力，他们设计了4类谜题环境：汉诺塔、�

苹果研究推理模型思考假象
小白如何用海绵音乐生成AI音乐？

本教程介绍如何利用AI音乐生成工具"海绵音乐"零基础创作个性化音乐。通过输入情绪(治愈/欢快)、乐器(钢琴/吉他)、节奏(慢/中/快)等关键词，AI可快速生成适合短视频配乐、背景音乐等场景的原创音乐。操作流程简单：注册账号→输入关键词→生成试听→下载使用。关键技巧包括使用具体关键词组合、多次调整优化。注意商用需确认版权，部分功能需付费。该工具让音

AI音乐生成短视频配乐背景音乐制作
快手可灵AI上线2.1系列模型：生成5秒视频不到1分钟

快手旗下可灵AI发布2.1系列模型，包含720p标准版和1080p高品质版，在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值，与上代保持相同成本；1080p视频生成时间不到1分钟，快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化，人物动作更真实自然。可灵AI自发布以来发展迅猛，全球用户突破2200万，月活增长25倍，累计生成1.68亿视频和3.44亿图片。商业化进程加速，2025年Q1营收超1.5亿元人民币，展现强劲市场潜力。

可灵AI 可灵2.1 AI视频创作
荐AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

本文介绍了AI领域多项最新进展：1)B站团队推出开源动漫视频生成模型AniSora，支持多种风格创作；2)OpenAI发布编程智能体Codex，提升开发效率；3)Google测试AI问答功能AI Mode；4)ChatGPT将整合MCP协议，支持第三方AI服务对接；5)阿里推出ZeroSearch框架，减少对搜索引擎的依赖；6)Stability AI与Arm合作推出手机端音频生成AI；7)Qwen发布WorldPM系列大模型；8)GPT-5将整合多款产品功能；9)ListenHub上线AI播客生成工具；10)QQ浏览器升级为AI浏览器；11)数学建模AI助手MathModelAgent面世；12)GenSpark推出全球首个智能下载代理；13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

AI日报动漫视频生成 AniSora

热文

3 天
7天

微软AI研究提出AI模型HMD-NeMo：可基于部分手部动作准确生成全身动作

全球首款生成式人形机器人运动大模型发布：可根据指令生成跑步、舞蹈等连贯动作

苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

特朗普政府将“AI安全研究所”去“安全化”

全身瘫痪小伙带全家住集装箱种菜：希望用双手创造价值

如何用 AI工具生成论文选题

荐AI日报：谷歌推最强AI全家桶Google AI Ultra；腾讯混元宣布模型矩阵全面升级；豆包·语音播客模型发布

苹果炮轰AI推理模型：全是假思考！所谓思考只是一种假象

小白如何用海绵音乐生成AI音乐？

快手可灵AI上线2.1系列模型：生成5秒视频不到1分钟

荐AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

热文

点击已死？“AI引用”才是流量未来，SEO正在被SAO、AEO取代

李世石：AI不会“解读”……直觉依然属于人类！

前OpenAI研究员：有时，ChatGPT为了“自救”，会选择牺牲用户

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

站长商机