近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。
物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等,需要具备常识推理能力和对空间、时间及物理规律的深入理解。
然而,现有的 AI 模型在与物理世界的连接上依然存在弱点,无法直观理解重力或空间关系,这使得其在具身任务中的表现不佳。直接在物理世界中进行训练的成本高昂且风险巨大,这在一定程度上阻碍了物理 AI 的发展。
为了解决这些问题,英伟达的 Cosmos-Reason1模型提出了创新的解决方案。该系列模型包括 Cosmos-Reason1-7B 和 Cosmos-Reason1-56B 两个版本,采用了物理 AI 监督微调和强化学习两大训练阶段。
研究团队引入了双本体系统,一个分层本体将物理常识分为空间、时间和基础物理三大类,另一个本体则映射人类、机械臂和人形机器人等具身代理的推理能力。
模型架构采用了仅解码器的大型语言模型,结合视觉编码器以处理视频数据,从而实现文本和视觉数据的同步推理。为此,团队构建了针对物理常识的三个基准测试,涵盖604个问题和426个视频,以及针对具身推理的六个基准,包含610个问题和600个视频。
经过训练,Cosmos-Reason1模型在物理常识和具身推理基准测试中表现出色,特别是在强化学习训练后,在预测下一步行动、验证任务完成及评估物理可行性等方面取得了显著进展。
随着 Cosmos-Reason1系列模型的推出,英伟达为物理推理任务提供了新的解决方案,未来在机器人和自动驾驶领域的应用潜力可期。
入口:https://github.com/nvidia-cosmos/cosmos-reason1
划重点:
🌟 英伟达发布 Cosmos-Reason1系列模型,提升 AI 在物理推理中的能力。
🤖 该模型采用双本体系统,通过视频和文本数据进行同步推理。
📈 在基准测试中,Cosmos-Reason1模型在物理常识和具身推理方面表现优异。