首页 > 业界 > 关键词  > EgoGen最新资讯  > 正文

微软推EgoGen:创新性3D数据合成模型 可生成丰富多模态数据

2024-02-23 09:02 · 稿源:站长之家

划重点:

1. 🚀 EgoGen是微软与苏黎世联邦理工学院合作推出的创新3D数据合成模型,解决第一人称视角训练数据生成的难题。

2. 🌟 该模型采用双阶段强化学习方案,通过高效的自我感知视觉代理和“注意”奖励,优化生成模型,使虚拟人物更自然、逼真地感知环境。

3. 📊 经过综合评估,EgoGen生成的高质量合成数据显著提升了在头戴式摄像头建图与定位、摄像头跟踪以及第一人称视角恢复人体网格等任务上的算法性能。

站长之家(ChinaZ.com) 2月23日 消息:微软近期推出的EgoGen引起了广泛关注,这是一项创新的3D数据合成模型,旨在应对第一人称视角训练数据生成中的各种挑战。随着AR、VR等设备的广泛应用,第一人称应用越发增多,但相关研发面临着图像模糊、视觉混乱、遮挡等问题,给视觉模型的训练带来了重大挑战。

为了解决这一问题,微软与苏黎世联邦理工学院的研究人员共同推出了EgoGen。该模型不仅具备高效的数据生成流程,而且适用于多个自我中心感知任务,例如能够生成用于恢复自我中心视角下人体网格的数据。

image.png

EgoGen的创新之处在于采用了双阶段强化学习方案来训练生成模型。在第一阶段,研究人员使用生成模型训练虚拟人物的行为,将身体运动和感知过程巧妙结合。关键点在于使虚拟人能够通过自我感知的视觉输入看到周围的环境,并通过学习控制一组避免碰撞的运动基元的策略来做出反应,进而合成多样化的人类动作。

为了提高训练的稳定性,EgoGen采用了高效的自我感知视觉代理和“注意”奖励。这一奖励机制在强化学习优化阶段发挥关键作用,通过引导奖励函数,使虚拟人物的运动更加自然和逼真。具体而言,当虚拟人物朝着期望的方向观察时,将获得“注意”奖励的正向反馈,鼓励其在感知任务中更加专注和准确。

经过强化学习优化,研究人员成功改进了生成模型,使虚拟人物能够以最佳方式感知环境、规避障碍并达到目的地。这一过程中,“注意”奖励的实现方式根据具体情况进行调整,确保虚拟人物的注意力与任务目标保持一致。

为了验证EgoGen方法的有效性,研究人员在头戴式摄像头建图与定位、摄像头跟踪以及第一人称视角恢复人体网格等三个第一人称感知任务上进行了综合评估。通过使用EgoGen生成的高质量合成数据,并提供精确的地面真实标注,已有算法在这些任务上的性能得到了显著增强。

EgoGen的推出标志着在解决第一人称视角训练数据生成难题方面迈出了重要一步,为AR、VR等领域的发展提供了有力支持。未来随着该模型的开源,相信将有更多的开发者参与其中,共同推动该领域的发展。

产品特色和亮点包括:

  1. 多模态数据生成: EgoGen能够生成丰富的多模态数据,包括逼真的RGB图像、带有模拟动态模糊的RGB图像、深度图、表面法线、分割蒙版以及在头戴设备广泛使用的鱼眼相机的世界位置等。

  2. 摄像机仿真: 该系统模拟了头戴设备上的摄像机配置,包括摄像机传感器的位置和角度。用户可以从摄像机佩戴者的视角进行渲染。

  3. 准确标注: EgoGen提供准确的注释,有助于训练深度学习模型。这对于主观感知任务中的监督学习至关重要。

  4. 可扩展性: 产品具备可扩展性,使其能够适应不同的主观感知任务和场景,提供了更灵活的数据生成解决方案。

论文地址:https://arxiv.org/abs/2401.08739

项目入口:https://top.aibase.com/tool/egogen

举报

  • 相关推荐
  • Mate史上第一次!华为Mate 80全系支持3D人脸识别

    据数码博主爆料,华为Mate 80系列有望全系标配3D人脸识别,采用国产方案,核心组件均来自国内顶级供应商。该系列将提供四款机型,搭载全新鸿蒙6系统并首发麒麟9030芯片,成为华为史上最强Mate旗舰,最快或于11月亮相。

  • 京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验

    京东在双11期间升级直播技术,推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示,用户无需额外设备即可旋转查看产品细节;JoyAI生成虚拟偶像Aura,与真人明星跨次元互动,提升趣味性。AI工具还简化直播运营,支持智能脚本和选品。这些技术打破传统直播边界,增强沉浸感和互动效率,引领电商直播创新方向。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • GEO品牌监控平台横评:哪家工具的数据最准?

    本文测试多款GEO监控工具,发现同一关键词在不同工具中曝光率差异高达40%,直接影响AI推荐排名。通过对比测试,国际工具覆盖ChatGPT等平台但缺失国产AI,国内工具AIBase专注豆包、DeepSeek等平台,准确率达90%且提供竞品对比、场景还原等深度分析。建议国内企业首选AIBase,全球化业务可组合使用国际工具,并强调工具核心价值在于通过数据持续优化内容策略。

  • 高通骁龙8 Gen5本月底亮相:一加全球首发

    高通骁龙8 Gen5芯片暂定11月底发布,由一加首发搭载。除了一加,vivo、魅族、iQOO、moto等品牌也将使用骁龙8 Gen5芯片。 据悉,高通骁龙8 Gen5由一加和高通联合定义,这颗芯片采用台积电3nm工艺(N3P)制程,配备Oryon CPU,由2*3.8GHz超大核 6*3.32GHz大核组成,并集成Adreno 840 GPU。 跑分方面,骁龙8 Gen5的安兔兔总成绩突破3

  • 用了3个月GEO监控,我发现品牌在AI推荐中的5个真相

    文章探讨AI搜索时代企业面临的新挑战:用户转向ChatGPT、豆包等平台直接提问,导致传统搜索引擎询盘量下降。核心提出GEO品牌监控概念,需关注品牌在AI推荐中的曝光率、排名位置、提及场景等5个关键指标。通过工具持续监控并优化内容,可提升AI搜索可见性。数据显示GEO投入回报率达1:3.71,建议企业尽早布局抢占新兴流量入口。

  • 数巅完成数亿元pre-A轮融资,领跑企业级AI Agent赛道

    北京数巅科技完成数亿元Pre-A轮融资,由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展,强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案,通过模块化架构整合海量行业知识与企业数据,精准识别用户需求,实现秒级响应与深度推理,满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地,查数准确率超99%,成为国内企业级智能体应用的重要里程碑。

  • 一加全球首发!高通骁龙8 Gen5规格揭晓:跑分破330万

    博主数码闲聊站今天曝光了高通骁龙8 Gen5详细规格,采用台积电N3p打造,Oryon CPU架构,2*3.8GHz超大核 6*3.32GHz大核。 Adreno 840 GPU,采用了骁龙8 Elite Gen5同款IP、同款GPU架构,但砍了规模,频率貌似也是1.2GHz。

  • 华为官方文档确认:Mate 80全系支持3D人脸

    华为Mate80系列预计11月发布,含标准版、Pro版及RS大师版四款。官方文档显示全系支持3D人脸识别,但标准版配置待确认。后摄模组采用居中圆形设计,搭载首发的麒麟9030芯片及鸿蒙OS 6系统,性能将提升。顶配RS版配备6.9英寸双层OLED屏,亮度更高功耗更低,并可能支持eSIM功能。

今日大家都在搜的词: