首页 > 业界 > 关键词  > HMD-NeMo最新资讯  > 正文

微软AI研究提出AI模型HMD-NeMo:可基于部分手部动作准确生成全身动作

2023-11-14 16:00 · 稿源:站长之家

**划重点:**

1. 🌐 微软Mixed Reality & AI Lab的研究人员提出HMD-NeMo,一种新的神经网络模型,能够在手部部分可见的情况下生成真实和准确的全身动作。

2. 🧠 HMD-NeMo采用时空编码器和新颖的可调节时间蒙版token(TAMT),在实时和在线情景下操作,解决了虚拟现实中全身动作生成的挑战。

3. 🚀 该方法通过在Motion Controllers和Hand Tracking等场景下进行广泛评估,并在多个数据集上超越现有方法,展示了其在解决虚拟现实中生成全身动作的问题上的重要进展。

站长之家(ChinaZ.com) 11月14日 消息:在混合现实场景中,生成准确和真实的全身虚拟角色动作一直是一个持久性的挑战。传统解决方案通常使用头戴式设备(HMDs),依赖有限的输入信号,如头部和手部的6自由度(DoF)。然而,最近的进展在从头部和手部信号生成全身动作方面取得了令人印象深刻的表现。然而,它们普遍存在一个共同的限制,即假设手部完全可见。这一假设在手部跟踪依赖于自我中心传感器的情况下成立,由于HMD的有限视野,导致手部部分可见。

image.png

来自微软Mixed Reality & AI Lab的研究人员引入了一种创新的方法 - HMD-NeMo(HMD神经运动模型)。这一统一的神经网络能够在手部仅部分可见的情况下生成真实和准确的全身动作。HMD-NeMo实时在线运行,适用于动态混合现实场景。

HMD-NeMo的核心是一种时空编码器,具有新颖的可调节时间蒙版令牌(TAMT)。这些令牌在没有手部观测的情况下鼓励生成真实的动作。该方法采用循环神经网络高效捕捉时间信息,并使用变压器模型复杂地建模不同输入信号组件之间的关系。

研究纸提出了两种评估场景:Motion Controllers(MC),其中使用运动控制器跟踪手部,和Hand Tracking(HT),其中使用自我中心手部跟踪传感器跟踪手部。结果表明,HMD-NeMo是第一种能够在统一框架内处理这两种情况的方法。在HT场景中,即使手部可能完全或部分不在视野中,可调节时间蒙版token在维持时间连贯性方面表现出色。

该方法使用损失函数进行训练,考虑数据准确性、平滑度以及在SE(3)中进行人体姿势重建的辅助任务。实验证明了HMD-NeMo在AMASS数据集上的出色性能,该数据集包含转换为3D人体网格的大量人体运动序列。采用关节位置误差(MPJPE)和关节速度误差(MPJVE)等指标评估HMD-NeMo的性能。

与运动控制场景中的最先进方法进行比较显示,HMD-NeMo实现了更高的准确性和更平滑的动作生成。此外,通过跨数据集的评估,证明了该模型的泛化能力,在多个数据集上优于现有方法。

深入研究了不同组件的影响,包括TAMT模块在处理缺失手部观测方面的有效性。研究表明,HMD-NeMo的设计选择,如时空编码器,对其成功起到了重要作用。

HMD-NeMo在解决混合现实场景中生成全身虚拟角色动作的挑战方面迈出了重要的一步。其在处理运动控制和手部跟踪等多种场景中的多功能性,以及出色的性能指标,使其成为该领域的开创性解决方案。

论文网址:https://www.microsoft.com/en-us/research/publication/hmd-nemo-online-3d-avatar-motion-generation-from-sparse-observations/

举报

  • 相关推荐
  • 无人机编队新标杆|高巨创新 EMO PLUS 定价 5388 元 / 单电版开启预订

    高巨创新EMO PLUS无人机正式发布,定价1000架起订,专为专业级编队表演设计。该产品以科技点亮夜空创意,提供全新选择,满足大型演出需求。

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • 小度全产品矩阵亮相 AWE,看大模型时代如何让 AI 真正走进千家万户

    3月12日,中国家电及消费电子博览会(AWE2026)将在上海开幕。作为行业领先的AI助手硬件品牌,小度科技将首次携全系产品矩阵亮相,展示其“场景+AI+硬件”战略的落地成果。从智能音箱、智能屏到AI眼镜、智能摄像头等硬件,以及AI酒店、AI养老等行业解决方案,小度将呈现一个完整的AI生态。这一切的背后,是2025年底升级的“超能小度”——基于大模型打造的多模态AI智能助手,让小度产品真正具备了“看见”世界、“思考”需求的能力。在AWE现场,观众将有机会亲身体验多模态AI如何重塑家庭看护、随身办公、智能交互等场景。小度正以实际行动回答:大模型时代,AI应如何走进千家万户。

  • MWC首秀即焦点!讯飞AI眼镜携多模态同传大模型革新智能穿戴体验

    在2026年世界移动通信大会(MWC)上,科大讯飞以“AI Connecting Ideas”为主题,首次全球亮相其AI眼镜。该产品集多模态同传翻译与极致轻量化设计于一身,凭借领先的多模态降噪、全能翻译及多模态记录功能,吸引了众多海外运营商、技术伙伴及专业媒体的关注。其创新的唇动识别多模态降噪方案,通过摄像头捕捉说话者唇部运动,融合骨传导麦克风捕捉佩戴者声音,将音视频两路信息融合处理,在多人交谈的嘈杂背景中精准锁定目标讲话人,将语音识别和翻译的准确率提升50%以上。整机重量仅40克,相比当前市面主流同类产品重量降低了约20%,是目前全球最轻的双目单色显示多模态智能眼镜。此外,讯飞AI眼镜还具备多模态记录功能,能自动智能生成图文声并茂的会议纪要,覆盖信息记录和总结的全流程,为跨国商务人群提升工作效率。讯飞AI眼镜于北京时间3月4日上午10:10在国内电商开启预约。

  • 海尔智家发布行业首个AI+细分岗位能力模型

    随着AI 应用迈入规模化落地的关键阶段,兼具数字化思维与AI 技术能力的复合型人才成为行业发展的刚需。数据显示,2030年全球AI人才缺口预计达500万,中国占比超过40%。基于这一现状,3月5日,海尔智家率先发布了行业首个AI+细分岗位能力模型,涵盖AI产品经理与AI技术开发工程师岗位能力模型。该模型涵盖6大核心能力维度、24项细分能力指标,通过“标准制定—人才培养—�

  • ​别再盲目做 AI 营销了!这款 GEO监控工具,撕开了大模型引用的“黑盒”

    本文探讨了生成式引擎优化(GEO)的重要性,并介绍了AIBase推出的GEOBase平台。文章指出,当前品牌营销的关注点已从传统SEO转向GEO,即如何让品牌在AI搜索结果中获得更高可见度。GEOBase平台通过曝光趋势、引用来源、情感得分等核心功能,帮助品牌监测在各大AI平台(如DeepSeek、豆包等)中的表现,并提供数据驱动的优化策略。文章以3C品牌为例,展示了如何利用该工具分析竞争格局、优化内容投放,从而提升品牌在AI语境下的影响力。最后,文章强调GEO是算法时代的精密计算,而GEOBase为品牌提供了关键的“体检报告”和作战地图。

  • AI日报:谷歌发布Gemini3.1Pro;Claude Code远程控制功能上线;Qwen3.5开源家族新增多款模型

    本期AI日报汇总了人工智能领域的最新动态。谷歌发布Gemini 3.1 Pro,推理能力显著提升,多项基准测试超越GPT-4o。Anthropic为Claude Code推出“远程控制”功能,实现移动设备无缝管理电脑编码任务。OpenAI发布深度融合推理能力的编程模型GPT-5.3-Codex。通义千问Qwen3.5开源家族新增多款模型并上线托管服务。Meta开源GPU集群监控工具GCM,精准定位硬件故障。Anthropic发布企业级插件,将Claude深度集成至Office全家桶。谷歌AI虚拟形象支持24种语言,提升跨语言沟通效率。阿里云Coding Plan推出低价订阅服务,降低开发者使用成本。

  • 实测OpenClaw中文版Molili自定义大模型:这才是真·AI智能体

    本文介绍了OpenClaw中文版Molili,一款能真正执行任务的桌面AI智能体。它解决了传统AI“只会说不会做”的痛点,通过微信等平台直接下达指令,即可自动操作电脑完成查找文件、发送文档等任务。核心亮点包括:支持自定义接入各类大模型,打破模型绑定;提供8000+现成技能,覆盖办公、编程、生活等场景;注重安全与隐私,设有操作权限管控和本地数据处理机制;对中文指令和国产生态有深度优化。

  • 潮牌Supreme卖棺材 介绍称“耐用”:20号钢打造

    近日,潮流界再掀波澜,Supreme2026 春夏系列推出了一款极具话题性的“终极潮流单品”——Supreme/Titan Orion Casket(联名棺材),瞬间成为时尚圈和大众热议的焦点。 这款联名棺材是Supreme与美国殡葬用品品牌Titan Casket携手打造的。Titan Casket采用DTC模式,主打平价棺椁,此次合作款为美国制造,预计于 8 月正式发售。 从材质和设计来看,这款棺材颇具特色。它由 20 号钢材打造而

  • OpenClaw中文版Molili开放自定义大模型接入 国产AI智能体再突破

    3月5日,OpenClaw中文版Molili正式上线自定义接入大模型功能。该产品以极致自由度、全链路本土化适配与零门槛操作为特点,为个人及企业用户提供全新AI自动化解决方案,推动桌面AI智能体从“对话交互”向“落地执行”深度转型。核心亮点包括自定义大模型接入、全场景使用自由,支持企业无缝接入私有模型,个人用户可自主选择偏好模型,打破传统AI工具模型绑定限制。产品突破“重对话、轻执行”行业痛点,实现真实电脑端操作,覆盖文件处理、信息搜索等重复性任务,支持微信、钉钉等多平台远程指挥,并搭载8000+技能矩阵,全方位保障用户隐私与数据安全。

今日大家都在搜的词: