首页 > 业界 > 关键词  > Ego-Exo4D最新资讯  > 正文

Meta重磅推出Ego-Exo4D:视频学习与多模态感知研究的基础数据集

2023-12-01 09:58 · 稿源:站长之家

划重点:

  1. 🧠 多模态学习工具发布: Meta发布Ego-Exo4D,这是一个支持视频学习与多模态感知研究的基础数据集和基准套件,旨在为广大研究社区提供探索自我与外界视频、多模态活动识别等工具。

  2. 🌍 协作研究背景: 该数据集是Meta FAIR(基础人工智能研究)、Project Aria,以及15所大学合作两年努力的成果。

  3. 🤖 面向未来的AI应用: Ego-Exo4D不仅是最大的公共同步时间的第一人称和第三人称视频数据集,还提供多模态数据,包括音频、惯性测量单元、广角灰度摄像头等。

站长之家(ChinaZ.com)12月1日 消息:Meta最近宣布推出Ego-Exo4D,这是一项具有重大影响的举措,为视频学习和多模态感知研究提供了一套基础数据集和基准套件。该数据集是Meta FAIR(基础人工智能研究)与Project Aria以及15所大学两年合作努力的结晶。

image.png

Ego-Exo4D的独特之处在于同时捕捉了参与者佩戴的可穿戴相机的第一人称“自我的”视角和周围相机的多个“外界”视角。这两个视角是互补的,第一人称视角展示了参与者所见和所听,而外界视角则展示了周围环境和上下文。这为AI模型提供了一个窗口,窥视复杂人类技能的奥秘。

通过FAIR和大学合作伙伴的联合努力,Ego-Exo4D捕捉了来自美国、日本、哥伦比亚、新加坡、印度和加拿大的800多位熟练参与者的视角。该联合体计划于十二月份开源数据,包括超过1,400小时的视频和用于新奇基准任务的标注。明年,他们计划举办首个公开基准挑战,并发布自我与外界理解的基准模型。

image.png

Ego-Exo4D的关注点是熟练的人类活动,如运动、音乐、烹饪、舞蹈和自行车修理。通过对人类技能在视频中的理解的进步,可以促使许多应用的发展。例如,在未来的增强现实(AR)系统中,戴着智能眼镜的人可以通过虚拟AI教练迅速掌握新技能;在机器人学习中,机器人观看其环境中的人们可以通过较少的实际经验获得新的灵巧操作技能;在社交网络中,新的社群可以根据人们在视频中分享他们的专业知识和互补技能而形成。

然而,实现这一潜力在今天的数据集和学习范式下并不可能。现有的包含自我和外界视角(即自我-外界)的数据集很少,规模小,缺乏跨相机的同步,或者过于策划或编辑以抵御现实世界的多样性。因此,目前关于活动理解的文献主要只涵盖自我或外界视角,无法在第一人称和第三人称视角之间流畅切换。

Ego-Exo4D构成了最大的公共同步时间的第一人称和第三人称视频数据集。构建这个数据集需要招募跨足不同领域的专业人士,汇集多样的群体共同创建多方面的AI数据集。所有情景都涉及现实世界的专业人士,相机佩戴者参与者在所展示的技能方面具有特定的资格、培训或专业知识。例如,Ego-Exo4D相机佩戴者包括职业和大学运动员;爵士、萨尔萨和中国民间舞蹈者和教练;竞技攀岩者;在工业规模厨房工作的专业厨师;以及每天服务数十辆自行车的自行车技师。

image.png

Ego-Exo4D不仅是多视图,还是多模态的。使用Meta独特的Aria眼镜拍摄,所有自我视频都伴随着与时间对齐的七通道音频、惯性测量单元(IMU)和两个广角灰度摄像头等多种传感器。所有数据序列还通过Project Aria的先进机器感知服务提供了眼球注视、头部姿势和环境的3D点云。

此外,Ego-Exo4D提供了多种新的视频语言资源:

  • 相机佩戴者描述自己行动的第一人称叙述。
  • 对每位相机佩戴者行动进行的第三人称实况描述。
  • 对视频进行评论的第三人称口头专家评论。他们是具有特定领域专业知识的52名教练和老师,根据相机佩戴者的表现提供建议和评论。

所有这三种语言资源都与视频时间戳匹配。通过这些新颖的视频语言资源,AI模型可以了解熟练的人类活动的微妙方面。据我们所知,以前没有任何具有如此广泛且高质量的多模态数据的视频资源。

image.png

除了数据之外,他们还为自我-外界视频的基础任务提供了基准,以推动社区的努力。

他们提出了四个任务:

  1. 自我(-外界)识别:从自我(和/或可选的外界)视频中识别过程活动的微观关键步骤及其结构,即使在能量受限的情况下也可以。
  2. 自我(-外界)熟练估计:推断一个人执行技能的程度。
  3. 自我-外界关系:通过估计语义对应关系和转换视点,将老师(外界)的动作与学习者(自我)的动作相关联。
  4. 自我姿势:仅从单眼自我视频中恢复专业人士的熟练动作,即3D身体和手势姿势。

他们为每个任务的培训和测试提供了高质量的标注,这是超过20万小时的标注员努力的结果。为了启动这些新挑战的工作,他们还制定了基准模型并报告了它们的结果。他们计划在2024年举办首个公开基准挑战。

Ego4D联合体是FAIR与全球十几所大学之间的长期合作。在2021年发布Ego4D之后,这支由专家教职员、研究生和工业研究人员组成的团队重新启动,推出了Ego-Exo4D项目。该联合体的优势既在于其集体的AI才能,也在于其地理广度,可以在各种视觉环境中记录数据。

Ego-Exo4D包括来自六个国家和七个美国州的视频,为AI开发提供了多样化的资源。联合体成员和FAIR研究人员在整个项目中进行了协作,从制定倡议范围,到收集数据集的独特组成部分,再到制定基准任务。该项目还标志着Aria眼镜在学术研究社区的单一最大协调部署,涉及12个不同地点的合作伙伴使用了这些眼镜。

通过发布这一规模和多样性前所未有的资源,该联合体旨在为视频学习中的核心AI挑战提供支持。随着这一研究方向的发展,他们设想未来的AI将使人们在增强现实和混合现实(AR/MR)中学习新技能的方式发生变革,如何视频在用户面前栩栩如生,系统充当虚拟教练,引导他们完成新的程序并提供建议以改进。同样,他们希望它将使未来的机器人通过观察熟练的人类专家获得复杂的灵巧操作洞察。Ego-Exo4D是实现这一未来的关键一步,他们迫不及待地期待看到研究社区如何应用它。

举报

  • 相关推荐
  • 苹果19年老将跳槽!iOS 26液态玻璃创造者被Meta挖走

    苹果公司用户界面设计灵魂人物、任职19年的资深高管Alan Dye正式宣布将于12月31日加入Meta,出任Reality Labs首席设计官。 作为iOS 26液态玻璃”视觉体系、Vision Pro交互界面及iPhone X全面屏体验的核心缔造者,他的出走被视为苹果自Jony Ive离任后最重大的设计人才流失。 据悉,Dye自2015年起执掌苹果人机界面(HCI)团队,主导了iOS、macOS、watchOS及visionOS近十年来的所有重大视觉革新�

  • 微星发布十周年限定MEG X870E GODLIKE X EDITION超神主板,全球限量1000片

    微星推出MEG X870E GODLIKE X EDITION超神主板,纪念GODLIKE系列十周年。该限量版全球仅1000块,每块带独立编号,彰显收藏价值。主板延续高规格配置,支持AMD锐龙9000系列处理器超频,配备24+2+1相供电、双8Pin接口,内存支持DDR5 9000+MT/s。扩展性强大,板载5个M.2插槽,另附扩展卡可增至7个NVMe设备。散热系统全面升级,采用第二代磁吸式M.2冰霜铠甲与扩展型散热设计。网络方面搭载万兆+5G双有线网卡与Wi-Fi 7。随主板附赠限量版M.2冰霜铠甲、收藏支架等赠品。首发售价8888元,提供“超神”专属终身质保。

  • 技嘉 X870E AORUS XTREME X3D AI TOP

    技嘉科技宣布其旗舰级X870E AORUS XTREME X3D AI TOP主板正式上市。该主板专为AMD Ryzen X3D处理器打造,搭载X3D Turbo Mode 2.0技术,通过动态AI超频模型与AI芯片,显著提升处理器性能,游戏与多任务场景下最高可提升25%。同时结合独家AI D5黑科技2.0,全面释放DDR5内存性能,最高可达9000+ MT/s。主板采用极致散热方案,包括CPU Thermal Matrix、DDR Wind Blade XTREME和M.2 Thermal Guard XTREME,有效降低关键部件温度。此外,配备多项EZ-DIY人性化设计,如PCIe EZ-Latch Plus Duo和M.2 EZ-Latch Plus,简化安装流程。产品包装采用环保可重复利用设计,兼具质感与收藏价值。

  • 技嘉钛冰雕主板24小时内两破D5内存超频纪录 再创巅峰

    技嘉Z890 AORUS TACHYON ICE钛冰雕主板凭借AI D5黑科技2.0、高效供电系统及优化布局,助力超频高手Saltycroissant与Sergmann在24小时内将内存频率从13407MT/s提升至13530MT/s,刷新行业纪录。自2025年以来,该主板已创下10项DDR5超频纪录,在HWBOT平台获得权威认证。其默认支持内存频率突破9500MT/s,业界普遍认为突破14000MT/s只是时间问题。顶级超频数据也将优化普通用户体验,值得期待。

  • 专为 AMD Ryzen X3D 处理器打造:技嘉 X870E AORUS XTREME X3D AI TOP 旗舰主板正式上市

    技嘉科技发布旗舰级X870E AORUS XTREME X3D AI TOP主板,专为AMD Ryzen X3D处理器优化。搭载X3D Turbo Mode 2.0技术,通过动态AI超频与AI芯片驱动,智能调节频率与功耗,最高提升处理器性能25%。结合独家D5黑科技,释放DDR5内存潜力,频率可达9000+ MT/s。配备全方位散热方案,包括CPU Thermal Matrix、DDR Wind Blade XTREME与M.2 Thermal Guard XTREME,确保高负载稳定运行。集成EZ-DIY人性化设计,简化硬件安装流程,为追求极致性能的玩家提供理想平台。

  • AI日报:Meta开源可交互3D模型SAM 3D;联想将推出个人超级智能体;华纳音乐与 Udio 达成版权和解

    火山引擎在Gartner AI平台魔力象限中位列中国第一、全球第五,其模型-工具-算力-场景闭环优势显著。OpenAI为美国K-12教师推出免费ChatGPT工具,助力教学准备与AI技术应用。谷歌地图集成Gemini模型,新增行程规划、地标导航等AI功能。联想计划推出个人超级智能体,对AI发展持乐观态度。华纳音乐与Udio达成和解,将于2026年推出AI音乐创作平台。QQ浏览器升级AI小窗与语音朗读功能。Meta开源SAM 3D模型,可实现单图生成交互式3D资产。Prime Video推出AI视频回顾功能,自动生成剧集精华片段。

  • AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级

    本期AI日报聚焦多款AI产品更新:Medeo AI新版视频Agent支持自然语言一键改剧本,降低创作门槛;钉钉8.1.10将AI融入职场沟通,提升效率;OpenAI低调上线GPT-5.2,延迟显著降低,逻辑一致性提升,并推出支持私有化部署的成人模式;迪士尼投资100亿美元与OpenAI合作,推动IP在生成式AI中的创新应用;谷歌Gemini Deep Research开放API,供开发者构建研究应用;Cohere推出Rerank 4,上下文窗口扩展至32K,提升企业搜索精度;拓竹科技推出3D手办生成器“印你”,依托腾讯混元3D模型,简化3D建模流程;谷歌NotebookLM升级,为Ultra会员提供更高权限,优化智能笔记体验。

  • 硬核玩家的性能旗舰之选,技嘉X870E AORUS XTREME X3D AI TOP主板重磅亮相

    技嘉推出旗舰主板X870E AORUS XTREME X3D AI TOP,搭载2.0版X3D AI超频技术,可针对每颗CPU定制优化方案,相比默频提升25%游戏性能和14%生产力性能。支持AMD Ryzen 7000/8000/9000系列处理器,尤其优化X3D型号。内存超频达9000+ MT/s,最大支持256GB容量。配备双PCIe 5.0插槽、五个M.2接口(含两个PCIe 5.0)、双10GbE网口和Wi-Fi 7无线网卡。提供丰富接口包括双USB4,正面配备5英寸LCD屏幕。该主板以AI超频和全面硬件规格重新定义AM5平台性能标杆。

  • MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

    文章报道了MEET2026智能未来大会盛况,聚焦AI向AGI演进的关键趋势。大会汇聚产业、学术、投资界代表,探讨了以DeepSeek为代表的世界模型开启AGI之路,以及“Agent元年”下具身智能、AI终端等热点。多位专家分享了核心观点:AI正从生成式向智能体演进,未来5-10年基础大模型将收敛至不超过10个,智能体互联网时代将到来;企业需构建“模型-终端-数据”商业闭环,通过人机协作实现智能体落地;开源生态与硬件基础设施是AI发展关键。圆桌讨论指出,Agent技术已在客服等场景验证价值,但全面革新仍面临数据、场景与组织协同挑战,需技术与行业深度共创。

  • 报名开启 | 「2025 Meet・未来系列活动:全球AI前瞻者大会」顶尖专家共探技术与产业新局

    12月16日,中关村东升科技园将举办“未来系列”活动,聚焦AI体系化落地关键节点,探讨行业治理与伦理等核心议题。活动汇聚领军专家、科创先锋等多方力量,共研“AI+”价值落地路径,旨在夯实中国AI全球竞争力。亮点包括:全球前沿视角探讨AI从单点突破到体系化落地;高端对话平台促进产学研深度交流;聚焦AI与实体经济融合的价值创造;立足国内“AI+”战略推进现状,链接全球产业动态。活动面向科技企业创始人、高管、科创创业者、投资人及行业研究者等,席位有限。

今日大家都在搜的词: