首页 > 业界 > 关键词  > HMD-NeMo最新资讯  > 正文

微软AI研究提出AI模型HMD-NeMo:可基于部分手部动作准确生成全身动作

2023-11-14 16:00 · 稿源:站长之家

**划重点:**

1. 🌐 微软Mixed Reality & AI Lab的研究人员提出HMD-NeMo,一种新的神经网络模型,能够在手部部分可见的情况下生成真实和准确的全身动作。

2. 🧠 HMD-NeMo采用时空编码器和新颖的可调节时间蒙版token(TAMT),在实时和在线情景下操作,解决了虚拟现实中全身动作生成的挑战。

3. 🚀 该方法通过在Motion Controllers和Hand Tracking等场景下进行广泛评估,并在多个数据集上超越现有方法,展示了其在解决虚拟现实中生成全身动作的问题上的重要进展。

站长之家(ChinaZ.com) 11月14日 消息:在混合现实场景中,生成准确和真实的全身虚拟角色动作一直是一个持久性的挑战。传统解决方案通常使用头戴式设备(HMDs),依赖有限的输入信号,如头部和手部的6自由度(DoF)。然而,最近的进展在从头部和手部信号生成全身动作方面取得了令人印象深刻的表现。然而,它们普遍存在一个共同的限制,即假设手部完全可见。这一假设在手部跟踪依赖于自我中心传感器的情况下成立,由于HMD的有限视野,导致手部部分可见。

image.png

来自微软Mixed Reality & AI Lab的研究人员引入了一种创新的方法 - HMD-NeMo(HMD神经运动模型)。这一统一的神经网络能够在手部仅部分可见的情况下生成真实和准确的全身动作。HMD-NeMo实时在线运行,适用于动态混合现实场景。

HMD-NeMo的核心是一种时空编码器,具有新颖的可调节时间蒙版令牌(TAMT)。这些令牌在没有手部观测的情况下鼓励生成真实的动作。该方法采用循环神经网络高效捕捉时间信息,并使用变压器模型复杂地建模不同输入信号组件之间的关系。

研究纸提出了两种评估场景:Motion Controllers(MC),其中使用运动控制器跟踪手部,和Hand Tracking(HT),其中使用自我中心手部跟踪传感器跟踪手部。结果表明,HMD-NeMo是第一种能够在统一框架内处理这两种情况的方法。在HT场景中,即使手部可能完全或部分不在视野中,可调节时间蒙版token在维持时间连贯性方面表现出色。

该方法使用损失函数进行训练,考虑数据准确性、平滑度以及在SE(3)中进行人体姿势重建的辅助任务。实验证明了HMD-NeMo在AMASS数据集上的出色性能,该数据集包含转换为3D人体网格的大量人体运动序列。采用关节位置误差(MPJPE)和关节速度误差(MPJVE)等指标评估HMD-NeMo的性能。

与运动控制场景中的最先进方法进行比较显示,HMD-NeMo实现了更高的准确性和更平滑的动作生成。此外,通过跨数据集的评估,证明了该模型的泛化能力,在多个数据集上优于现有方法。

深入研究了不同组件的影响,包括TAMT模块在处理缺失手部观测方面的有效性。研究表明,HMD-NeMo的设计选择,如时空编码器,对其成功起到了重要作用。

HMD-NeMo在解决混合现实场景中生成全身虚拟角色动作的挑战方面迈出了重要的一步。其在处理运动控制和手部跟踪等多种场景中的多功能性,以及出色的性能指标,使其成为该领域的开创性解决方案。

论文网址:https://www.microsoft.com/en-us/research/publication/hmd-nemo-online-3d-avatar-motion-generation-from-sparse-observations/

举报

  • 相关推荐
  • 大家在看
  • ShareGPT4Video:提升视频理解和生成的AI模型。

    ShareGPT4Video系列旨在通过密集且精确的字幕来促进大型视频-语言模型(LVLMs)的视频理解以及文本到视频模型(T2VMs)的视频生成。该系列包括:1) ShareGPT4Video,40K GPT4V注释的密集视频字幕,通过精心设计的数据过滤和注释策略开发而成。2) ShareCaptioner-Video,一个高效且功能强大的任意视频字幕模型,由其注释的4.8M高质量美学视频。3) ShareGPT4Video-8B,一个简单但卓越的LVLM,其在三个先进的视频基准测试中达到了最佳性能。

  • PixelProse:大规模图像描述数据集,提供超过16M的合成图像描述。

    PixelProse是一个由tomg-group-umd创建的大规模数据集,它利用先进的视觉-语言模型Gemini 1.0 Pro Vision生成了超过1600万个详细的图像描述。这个数据集对于开发和改进图像到文本的转换技术具有重要意义,可以用于图像描述生成、视觉问答等任务。

  • GPTCommit:自动化生成Git提交信息的脚本工具。

    GPTCommit是一个利用OpenAI的GPT-4o模型来分析代码变更并自动生成提交信息的自动化Git提交工具。它简化了代码提交流程,通过智能分析代码变更,快速生成合适的提交信息,提高开发效率。

  • DeepFuze:革命性深度学习工具,用于面部转换和视频生成。

    DeepFuze是与ComfyUI无缝集成的先进深度学习工具,用于革新面部转换、lipsyncing、视频生成、声音克隆和lipsync翻译。利用先进的算法,DeepFuze使用户能够以无与伦比的真实性结合音频和视频,确保完美的面部动作同步。这一创新解决方案非常适合内容创作者、动画师、开发者以及任何希望以先进的AI驱动功能提升其视频编辑项目的人士。

  • TikTok Symphony:创意AI套件,简化TikTok内容创作。

    TikTok Symphony是一个由生成性AI驱动的全新创意解决方案套件,旨在简化营销人员和创作者在TikTok上的内容创作旅程。通过将人类想象力与AI驱动的效率相结合,TikTok Symphony使各种规模的企业、创作者和代理机构能够提升内容创作水平,提高生产力,并发现有价值的洞察。

  • Moatless Tools:使用大型语言模型编辑大型代码库的工具。

    Moatless Tools 是一个业余项目,作者在这里尝试一些关于如何使用大型语言模型(LLMs)来编辑大型现有代码库的想法。项目认为,构建好工具以插入正确的上下文到提示中并处理响应,比依赖代理推理解决方案更为关键。

  • CogiDigm:创新AI技术,引领数字艺术未来。

    CogiDigm利用GenAI技术革新娱乐产业的叙事方式,包括电影制片厂、后期制作和广告代理公司。我们拥有尖端技术,成为行业领跑者。我们与FBRC.ai和AILA合作,提供视频生成和操作服务,释放创造力。我们的理念是采用以人为本的集体智能方法,提供广泛的服务,包括创新的GenAI解决方案、道德的AI模型实施、专业的技术指导、战略咨询和无缝部署专业知识。

  • Flash Diffusion:快速生成高质量图像的扩散模型

    Flash Diffusion 是一种高效的图像生成模型,通过少步骤生成高质量的图像,适用于多种图像处理任务,如文本到图像、修复、超分辨率等。该模型在 COCO2014 和 COCO2017 数据集上达到了最先进的性能,同时训练时间少,参数数量少。

  • Pizi:快速将照片转化为产品页面

    Pizi是一个创新的应用程序,它允许用户通过简单的拍照将照片快速转化为产品页面,极大地节省了创建产品页面所需的时间和精力。它通过优化照片和描述,旨在提高转化率,同时无需专业设备或人员,节省成本。Pizi还具备SEO功能,能够提高产品页面的搜索引擎可见性。

  • Seio:快速创建SEO优化文章,提升在线业务影响力

    Seio是一个SEO内容创作工具,它允许用户在几分钟内从关键词创建SEO优化的文章,帮助企业提升在线影响力。它提供了强大的自助产品和增长分析功能,以及团队共享的收件箱,以确保团队协作的高效性。Seio还提供了AI驱动的编辑器和多平台发布功能,以及与Zapier集成的自动化SEO流程。此外,Seio提供全天候的客服支持,帮助用户解决问题。

  • Accorata:AI驱动的早期投资项目发现平台

    Accorata是一个面向早期投资者的AI驱动的项目发现平台,旨在通过快速筛选全球前种子期和种子期初创企业来简化早期项目源的获取。平台通过集成的甲板处理器、AI增强的创始人尽职调查和符合最严格欧洲数据保护标准的主权技术,为投资者提供快速、深入的分析和筛选服务。

  • Callin AI:AI驱动的语音助手,提升企业客户服务效率。

    Callin AI提供一系列AI语音助手,旨在通过自动化客户对话来增强企业的成长。这些助手可以处理来电和去电,提供24/7的客户服务,并且可以根据企业的具体需求进行定制。Callin AI利用最新的语音识别和自然语言处理技术,帮助企业提高客户满意度,减少等待时间,并扩大服务能力。

  • Agent Mode:AI时代的命令行助手

    Agent Mode是Warp AI的一个特性,它允许用户使用自然语言在终端中完成多步骤工作流程。它能够识别和解释自然语言指令,提供环境特定的指导,并引导用户完成多步骤任务。Agent Mode利用OpenAI的API,但不会存储或保留用户的输入或输出数据。

  • Epipheo AI:AI视频生成器,快速创建专业解说视频。

    Epipheo AI是一个强大的通用人工智能工具,能够轻松生成专业的解说视频。它具有直观的界面和先进的算法,使用户能够在几分钟内创建吸引人的视频。Epipheo AI提供多种高质量的语音选项,确保信息传达清晰有效,增强观众参与度和专业性。此外,它还提供AI生成的变体,用于快速迭代和分享,确保视频不仅满足而且超出预期,具有高效率和易用性。

  • ComfyUI-LuminaWrapper:一个用于Lumina模型的Python包装器

    ComfyUI-LuminaWrapper是一个开源的Python包装器,用于简化Lumina模型的加载和使用。它支持自定义节点和工作流,使得开发者能够更便捷地集成Lumina模型到自己的项目中。该插件主要面向希望在Python环境中使用Lumina模型进行深度学习或机器学习的开发者。

  • Safe Superintelligence Inc.:构建安全的超级智能

    Safe Superintelligence Inc. 是一家专注于构建安全超级智能(SSI)的公司,由 OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 创办,其将安全置于“商业压力”之上。该公司认为SSI是当前时代最重要的技术问题,并致力于通过革命性的工程和科学突破来解决这一问题。公司的目标是快速提升智能能力,同时确保安全始终领先。其商业模式确保了安全性、安全性和进步不受短期商业压力的影响。

  • Tele-FLM:52B参数的开源多语言大型语言模型

    Tele-FLM(亦称FLM-2)是一个52亿参数的开源多语言大型语言模型,具有稳定高效的预训练范式和增强的事实判断能力。基于解码器仅变换器架构,已在大约2T的token上进行训练。Tele-FLM在同等规模上展现出优越的性能,有时甚至超越了更大的模型。除了分享模型权重外,我们还提供了核心设计、工程实践和训练细节,期待它们对学术界和工业界社区都有所裨益。

  • ChatFLM:智能聊天助手,提供高效交流体验。

    ChatFLM是一款基于FLM技术的智能聊天模型,旨在为用户提供流畅且智能的对话体验。该模型通过先进的自然语言处理技术,能够理解用户意图并生成合适的回复,适用于多种交流场景。

  • JASCO:音乐生成模型,结合文本和音频条件进行控制。

    JASCO是一个结合了符号和基于音频的条件的文本到音乐生成模型,它能够根据全局文本描述和细粒度的局部控制生成高质量的音乐样本。JASCO基于流匹配建模范式和一种新颖的条件方法,允许音乐生成同时受到局部(例如和弦)和全局(文本描述)的控制。通过信息瓶颈层和时间模糊来提取与特定控制相关的信息,允许在同一个文本到音乐模型中结合符号和基于音频的条件。

  • prism-alignment:探索大型语言模型的偏好和价值观对齐。

    prism-alignment 是一个由 HannahRoseKirk 创建的数据集,专注于研究大型语言模型(LLMs)的偏好和价值观对齐问题。数据集通过调查问卷和与语言模型的多轮对话,收集了来自不同国家和文化背景的参与者对模型回答的评分和反馈。这些数据对于理解和改进人工智能的价值观对齐至关重要。

今日大家都在搜的词: