Meta重磅推出Ego-Exo4D:视频学习与多模态感知研究的基础数据集

2023-12-01 09:58 · 稿源：站长之家

划重点:
🧠 多模态学习工具发布: Meta发布Ego-Exo4D，这是一个支持视频学习与多模态感知研究的基础数据集和基准套件，旨在为广大研究社区提供探索自我与外界视频、多模态活动识别等工具。
🌍 协作研究背景: 该数据集是Meta FAIR（基础人工智能研究）、Project Aria，以及15所大学合作两年努力的成果。
🤖 面向未来的AI应用: Ego-Exo4D不仅是最大的公共同步时间的第一人称和第三人称视频数据集，还提供多模态数据，包括音频、惯性测量单元、广角灰度摄像头等。

站长之家（ChinaZ.com）12月1日消息:Meta最近宣布推出Ego-Exo4D，这是一项具有重大影响的举措，为视频学习和多模态感知研究提供了一套基础数据集和基准套件。该数据集是Meta FAIR（基础人工智能研究）与Project Aria以及15所大学两年合作努力的结晶。

Ego-Exo4D的独特之处在于同时捕捉了参与者佩戴的可穿戴相机的第一人称“自我的”视角和周围相机的多个“外界”视角。这两个视角是互补的，第一人称视角展示了参与者所见和所听，而外界视角则展示了周围环境和上下文。这为AI模型提供了一个窗口，窥视复杂人类技能的奥秘。

通过FAIR和大学合作伙伴的联合努力，Ego-Exo4D捕捉了来自美国、日本、哥伦比亚、新加坡、印度和加拿大的800多位熟练参与者的视角。该联合体计划于十二月份开源数据，包括超过1，400小时的视频和用于新奇基准任务的标注。明年，他们计划举办首个公开基准挑战，并发布自我与外界理解的基准模型。

Ego-Exo4D的关注点是熟练的人类活动，如运动、音乐、烹饪、舞蹈和自行车修理。通过对人类技能在视频中的理解的进步，可以促使许多应用的发展。例如，在未来的增强现实（AR）系统中，戴着智能眼镜的人可以通过虚拟AI教练迅速掌握新技能;在机器人学习中，机器人观看其环境中的人们可以通过较少的实际经验获得新的灵巧操作技能;在社交网络中，新的社群可以根据人们在视频中分享他们的专业知识和互补技能而形成。

然而，实现这一潜力在今天的数据集和学习范式下并不可能。现有的包含自我和外界视角（即自我-外界）的数据集很少，规模小，缺乏跨相机的同步，或者过于策划或编辑以抵御现实世界的多样性。因此，目前关于活动理解的文献主要只涵盖自我或外界视角，无法在第一人称和第三人称视角之间流畅切换。

Ego-Exo4D构成了最大的公共同步时间的第一人称和第三人称视频数据集。构建这个数据集需要招募跨足不同领域的专业人士，汇集多样的群体共同创建多方面的AI数据集。所有情景都涉及现实世界的专业人士，相机佩戴者参与者在所展示的技能方面具有特定的资格、培训或专业知识。例如，Ego-Exo4D相机佩戴者包括职业和大学运动员;爵士、萨尔萨和中国民间舞蹈者和教练;竞技攀岩者;在工业规模厨房工作的专业厨师;以及每天服务数十辆自行车的自行车技师。

Ego-Exo4D不仅是多视图，还是多模态的。使用Meta独特的Aria眼镜拍摄，所有自我视频都伴随着与时间对齐的七通道音频、惯性测量单元（IMU）和两个广角灰度摄像头等多种传感器。所有数据序列还通过Project Aria的先进机器感知服务提供了眼球注视、头部姿势和环境的3D点云。

此外，Ego-Exo4D提供了多种新的视频语言资源:

相机佩戴者描述自己行动的第一人称叙述。
对每位相机佩戴者行动进行的第三人称实况描述。
对视频进行评论的第三人称口头专家评论。他们是具有特定领域专业知识的52名教练和老师，根据相机佩戴者的表现提供建议和评论。

所有这三种语言资源都与视频时间戳匹配。通过这些新颖的视频语言资源，AI模型可以了解熟练的人类活动的微妙方面。据我们所知，以前没有任何具有如此广泛且高质量的多模态数据的视频资源。

除了数据之外，他们还为自我-外界视频的基础任务提供了基准，以推动社区的努力。

他们提出了四个任务:

自我（-外界）识别:从自我(和/或可选的外界)视频中识别过程活动的微观关键步骤及其结构，即使在能量受限的情况下也可以。
自我（-外界）熟练估计:推断一个人执行技能的程度。
自我-外界关系:通过估计语义对应关系和转换视点，将老师（外界）的动作与学习者(自我)的动作相关联。
自我姿势:仅从单眼自我视频中恢复专业人士的熟练动作，即3D身体和手势姿势。

他们为每个任务的培训和测试提供了高质量的标注，这是超过20万小时的标注员努力的结果。为了启动这些新挑战的工作，他们还制定了基准模型并报告了它们的结果。他们计划在2024年举办首个公开基准挑战。

Ego4D联合体是FAIR与全球十几所大学之间的长期合作。在2021年发布Ego4D之后，这支由专家教职员、研究生和工业研究人员组成的团队重新启动，推出了Ego-Exo4D项目。该联合体的优势既在于其集体的AI才能，也在于其地理广度，可以在各种视觉环境中记录数据。

Ego-Exo4D包括来自六个国家和七个美国州的视频，为AI开发提供了多样化的资源。联合体成员和FAIR研究人员在整个项目中进行了协作，从制定倡议范围，到收集数据集的独特组成部分，再到制定基准任务。该项目还标志着Aria眼镜在学术研究社区的单一最大协调部署，涉及12个不同地点的合作伙伴使用了这些眼镜。

通过发布这一规模和多样性前所未有的资源，该联合体旨在为视频学习中的核心AI挑战提供支持。随着这一研究方向的发展，他们设想未来的AI将使人们在增强现实和混合现实（AR/MR）中学习新技能的方式发生变革，如何视频在用户面前栩栩如生，系统充当虚拟教练，引导他们完成新的程序并提供建议以改进。同样，他们希望它将使未来的机器人通过观察熟练的人类专家获得复杂的灵巧操作洞察。Ego-Exo4D是实现这一未来的关键一步，他们迫不及待地期待看到研究社区如何应用它。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

Meta与德国慕尼黑工业大学研发出创新模型ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D图像。该模型解决了传统文本生成多视角3D图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D图像生成领域带来更多创新可能。

ViewDiff AI头条
Meta计划下周推Llama3基础版，夏季推出全面版

Meta计划在下周预演其大型语言模型Llama3的两个基础版本。Llama3预计将支持多模态功能，允许用户输入文本和图像予以回应。预计将Meta在全球夏季推出完整的Llama3模型。

Meta Llama3
钉钉 AI 升级：加入多模态、工作流等能力

3月28日，钉钉AI助理进行了重磅升级，新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉AI助理率先尝试了多模态和长文本处理技术，展现出更强大的能力。用户可以在钉钉APP或PC客户端直接体验这些功能，享受AI带来的便捷与高效。

AI助理图片理解文档速读
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
李未可科技正式推出WAKE-AI多模态AI大模型

4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力，便于更多企业及开发者调用WAKE-AI能力，共建AI硬件生态。
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条

今日大家都在搜的词：

热文

3 天
7天

Meta重磅推出Ego-Exo4D:视频学习与多模态感知研究的基础数据集

今日大家都在搜的词：

热文

站长商机