首页 > 业界 > 关键词  > HMD-NeMo最新资讯  > 正文

微软AI研究提出AI模型HMD-NeMo:可基于部分手部动作准确生成全身动作

2023-11-14 16:00 · 稿源:站长之家

**划重点:**

1. 🌐 微软Mixed Reality & AI Lab的研究人员提出HMD-NeMo,一种新的神经网络模型,能够在手部部分可见的情况下生成真实和准确的全身动作。

2. 🧠 HMD-NeMo采用时空编码器和新颖的可调节时间蒙版token(TAMT),在实时和在线情景下操作,解决了虚拟现实中全身动作生成的挑战。

3. 🚀 该方法通过在Motion Controllers和Hand Tracking等场景下进行广泛评估,并在多个数据集上超越现有方法,展示了其在解决虚拟现实中生成全身动作的问题上的重要进展。

站长之家(ChinaZ.com) 11月14日 消息:在混合现实场景中,生成准确和真实的全身虚拟角色动作一直是一个持久性的挑战。传统解决方案通常使用头戴式设备(HMDs),依赖有限的输入信号,如头部和手部的6自由度(DoF)。然而,最近的进展在从头部和手部信号生成全身动作方面取得了令人印象深刻的表现。然而,它们普遍存在一个共同的限制,即假设手部完全可见。这一假设在手部跟踪依赖于自我中心传感器的情况下成立,由于HMD的有限视野,导致手部部分可见。

image.png

来自微软Mixed Reality & AI Lab的研究人员引入了一种创新的方法 - HMD-NeMo(HMD神经运动模型)。这一统一的神经网络能够在手部仅部分可见的情况下生成真实和准确的全身动作。HMD-NeMo实时在线运行,适用于动态混合现实场景。

HMD-NeMo的核心是一种时空编码器,具有新颖的可调节时间蒙版令牌(TAMT)。这些令牌在没有手部观测的情况下鼓励生成真实的动作。该方法采用循环神经网络高效捕捉时间信息,并使用变压器模型复杂地建模不同输入信号组件之间的关系。

研究纸提出了两种评估场景:Motion Controllers(MC),其中使用运动控制器跟踪手部,和Hand Tracking(HT),其中使用自我中心手部跟踪传感器跟踪手部。结果表明,HMD-NeMo是第一种能够在统一框架内处理这两种情况的方法。在HT场景中,即使手部可能完全或部分不在视野中,可调节时间蒙版token在维持时间连贯性方面表现出色。

该方法使用损失函数进行训练,考虑数据准确性、平滑度以及在SE(3)中进行人体姿势重建的辅助任务。实验证明了HMD-NeMo在AMASS数据集上的出色性能,该数据集包含转换为3D人体网格的大量人体运动序列。采用关节位置误差(MPJPE)和关节速度误差(MPJVE)等指标评估HMD-NeMo的性能。

与运动控制场景中的最先进方法进行比较显示,HMD-NeMo实现了更高的准确性和更平滑的动作生成。此外,通过跨数据集的评估,证明了该模型的泛化能力,在多个数据集上优于现有方法。

深入研究了不同组件的影响,包括TAMT模块在处理缺失手部观测方面的有效性。研究表明,HMD-NeMo的设计选择,如时空编码器,对其成功起到了重要作用。

HMD-NeMo在解决混合现实场景中生成全身虚拟角色动作的挑战方面迈出了重要的一步。其在处理运动控制和手部跟踪等多种场景中的多功能性,以及出色的性能指标,使其成为该领域的开创性解决方案。

论文网址:https://www.microsoft.com/en-us/research/publication/hmd-nemo-online-3d-avatar-motion-generation-from-sparse-observations/

举报

  • 相关推荐
  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • AI日报:视觉中国与多家大模型公司达成合作;OpenAI紧急暂停Sora生成已故名人;谷歌推出Gemini地图数据集成工具

    视觉中国与多家AI公司合作开发可商用视觉大模型,已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频,引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人,仅保留Meta AI。宇树科技推出仿人机器人Unitree H2,具备拟人化设计。谷歌为Gemini集成地图数据工具,可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器,但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能,可分析手机未分享照片。

  • 微算法科技(NASDAQ MLGO)研发基于AI的动态权重学习模型,开启区块链账户关联分析智能新时代

    微算法科技(NASDAQ MLGO)推出基于AI的动态权重学习模型,解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构,结合注意力机制LSTM、联邦学习等技术,实时捕捉交易模式演变,动态调整账户关联权重。在分片效率、风险控制、资源分配等领域应用效果显著,提升交易处理速度与欺诈识别率。未来计划融合多模态数据,探索量子机器�

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

    AI搜索时代,品牌若未出现在AI回答中就等于"不存在"。GEO(生成引擎优化)成为新战场,核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点:文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略:内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况,通过数据驱动优化策略。

今日大家都在搜的词: