微软推EgoGen:创新性3D数据合成模型可生成丰富多模态数据

2024-02-23 09:02 · 稿源：站长之家

划重点:
1. 🚀 EgoGen是微软与苏黎世联邦理工学院合作推出的创新3D数据合成模型，解决第一人称视角训练数据生成的难题。
2. 🌟 该模型采用双阶段强化学习方案，通过高效的自我感知视觉代理和“注意”奖励，优化生成模型，使虚拟人物更自然、逼真地感知环境。
3. 📊 经过综合评估，EgoGen生成的高质量合成数据显著提升了在头戴式摄像头建图与定位、摄像头跟踪以及第一人称视角恢复人体网格等任务上的算法性能。

站长之家(ChinaZ.com) 2月23日消息:微软近期推出的EgoGen引起了广泛关注，这是一项创新的3D数据合成模型，旨在应对第一人称视角训练数据生成中的各种挑战。随着AR、VR等设备的广泛应用，第一人称应用越发增多，但相关研发面临着图像模糊、视觉混乱、遮挡等问题，给视觉模型的训练带来了重大挑战。

为了解决这一问题，微软与苏黎世联邦理工学院的研究人员共同推出了EgoGen。该模型不仅具备高效的数据生成流程，而且适用于多个自我中心感知任务，例如能够生成用于恢复自我中心视角下人体网格的数据。

EgoGen的创新之处在于采用了双阶段强化学习方案来训练生成模型。在第一阶段，研究人员使用生成模型训练虚拟人物的行为，将身体运动和感知过程巧妙结合。关键点在于使虚拟人能够通过自我感知的视觉输入看到周围的环境，并通过学习控制一组避免碰撞的运动基元的策略来做出反应，进而合成多样化的人类动作。

为了提高训练的稳定性，EgoGen采用了高效的自我感知视觉代理和“注意”奖励。这一奖励机制在强化学习优化阶段发挥关键作用，通过引导奖励函数，使虚拟人物的运动更加自然和逼真。具体而言，当虚拟人物朝着期望的方向观察时，将获得“注意”奖励的正向反馈，鼓励其在感知任务中更加专注和准确。

经过强化学习优化，研究人员成功改进了生成模型，使虚拟人物能够以最佳方式感知环境、规避障碍并达到目的地。这一过程中，“注意”奖励的实现方式根据具体情况进行调整，确保虚拟人物的注意力与任务目标保持一致。

为了验证EgoGen方法的有效性，研究人员在头戴式摄像头建图与定位、摄像头跟踪以及第一人称视角恢复人体网格等三个第一人称感知任务上进行了综合评估。通过使用EgoGen生成的高质量合成数据，并提供精确的地面真实标注，已有算法在这些任务上的性能得到了显著增强。

EgoGen的推出标志着在解决第一人称视角训练数据生成难题方面迈出了重要一步，为AR、VR等领域的发展提供了有力支持。未来随着该模型的开源，相信将有更多的开发者参与其中，共同推动该领域的发展。

产品特色和亮点包括:

多模态数据生成: EgoGen能够生成丰富的多模态数据，包括逼真的RGB图像、带有模拟动态模糊的RGB图像、深度图、表面法线、分割蒙版以及在头戴设备广泛使用的鱼眼相机的世界位置等。
摄像机仿真: 该系统模拟了头戴设备上的摄像机配置，包括摄像机传感器的位置和角度。用户可以从摄像机佩戴者的视角进行渲染。
准确标注: EgoGen提供准确的注释，有助于训练深度学习模型。这对于主观感知任务中的监督学习至关重要。
可扩展性: 产品具备可扩展性，使其能够适应不同的主观感知任务和场景，提供了更灵活的数据生成解决方案。

论文地址:https://arxiv.org/abs/2401.08739

项目入口:https://top.aibase.com/tool/egogen

（举报）

微软推EgoGen:创新性3D数据合成模型可生成丰富多模态数据

Mate史上第一次！华为Mate 80全系支持3D人脸识别

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

易鑫正式发布汽车金融行业首个Agentic大模型

荐AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏览器推出AI+小窗

GEO品牌监控平台横评：哪家工具的数据最准？

高通骁龙8 Gen5本月底亮相：一加全球首发

用了3个月GEO监控，我发现品牌在AI推荐中的5个真相

数巅完成数亿元pre-A轮融资，领跑企业级AI Agent赛道

一加全球首发！高通骁龙8 Gen5规格揭晓：跑分破330万

华为官方文档确认：Mate 80全系支持3D人脸

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机

微软推EgoGen:创新性3D数据合成模型 可生成丰富多模态数据

今日大家都在搜的词：

热文

站长商机

微软推EgoGen:创新性3D数据合成模型可生成丰富多模态数据