首页 > 传媒 > 关键词  > 机器狗最新资讯  > 正文

机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

2025-11-05 16:39 · 稿源: 站长之家用户

今年6月,一支机器狗的视频在社交平台上刷屏——它在未训练过的真实场景(如人流密集的商场里)zero-shot地跟随用户,完成自主移动、避障、转向,并能能听懂“跟着妈妈”、“去陪孩子”的语音指令。 那背后,是银河通用发布的导航大模型 TrackVLA(让机器人「满大街跑」走进现实:银河通用发布产品级端到端导航大模型TrackVLA)。该模型由仿真大数据训练,在真实复杂场景中实现sim2real,完成智能的用户跟随,展现了极强的C端应用落地潜力。

最近,银河通用的导航大模型技术又迎来了质的飞跃。银河通用联合北京大学、阿德莱德大学、浙江大学等团队,推出了全球首个跨本体全域环视的导航基座大模型——NavFoM(Navigation Foundation Model)。 如果说 TrackVLA 让机器人学会“跟着人走”,那么 NavFoM 的意义在于——让机器人掌握全栈“移动的基础知识”。作为基座大模型,其自身可以做到:

•全场景:同时支持室内和室外场景,未见过的场景zero-shot运行,无需建图和额外采集训练数据;

•多任务:支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务;

•跨本体:可快速低成本适配机器狗、轮式人形、腿式人性、无人机、甚至汽车等不同尺寸的异构本体。

除此之外,该模型允许开发人员以之为基座,通过后训练,进一步进化成满足特定导航要求的应用模型。下面将从技术视角,解析其技术特点,介绍以此为基石衍生出的应用模型具身和对应的产业应用价值。

“导航”是具身智能的基础能力之一

导航是所有机器人移动操作的基础,也是感知、理解、决策、行动的综合体现。然而在过去很长一段时间里,具身导航的技术体系是相对碎片化的——不同任务(如跟随、搜索、驾驶)各用一套算法,不同机器人(如四足、人形、无人机)又各自训练模型。每换一个任务或本体,模型就得重新开发。这样的割裂不仅使得具身导航模型训练时效率低,二次开发难度大,还造成具身模型商用落地周期长,在不同本体上、不同场景中规模化商业应用的边际成本高等问题。

对此,银河通用的研发团队认为,让机器人具备可迁移智能、迈向大规模商用的第一步是让具身导航模型技术凝聚成一个通用的具身大脑,即构建一个能多任务、全场景、跨本体的具身导航大模型基座,实现让具身导航模型从“学会完成一条导航智能”到“真正理解机器人移动”的跨越。

从 TrackVLA 到 NavFoM:不仅能“跟着走”更能“自己找路”

基于这一思考,银河通用联合北京大学、阿德莱德大学、浙江大学等团队共同发布了新一代导航基座大模型——NavFoM(Navigation Foundation Model)。

这是全球首个跨本体全域环视导航基座大模型,把Vision-and-Language Navigation、Object-goal Navigation、Visual Tracking和Autonomous Driving等不同机器人的导航任务统一到相同的范式。如果说 TrackVLA 是让机器人能听懂人类语言、跟随目标前进,那么 NavFoM 的目标是让机器人能够自主感知世界,在完全未知的环境中自己决定去哪、怎么走。

统一范式:让不同机器人“掌握共性的移动知识”

NavFoM 重新定义了导航的底层逻辑。

过去,导航任务往往被拆分成识别、定位、规划等独立模块,模型之间缺乏统一语言。而 NavFoM 建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”。无论是“跟着那个人走”,还是“找到门口的红车”,在 NavFoM 里都是同一种输入输出形式。模型不再依赖模块化拼接,而是端到端地完成“看到—理解—行动”的全过程。

这意味着,曾经割裂的任务经过统一的数据对齐和任务建模可以互相迁移;不同形态的机器人能共享学习经验和运动知识。例如,四足机器人在商场里学到的“避让人群”经验,可能会帮助无人机在空中理解“动态障碍”;自动驾驶模型中的“道路预测”,也能反哺轮式机器人在室内路径规划中的判断。统一的输入与决策机制,让机器人真正具备了跨任务的“认知迁移”能力。

体系升维:从“任务模型”到“智能基座”:

NavFoM 通过两项关键技术创新构建统一学习范式,让机器人不仅看得懂、记得住、学得会,还能联合利用不同本体、不同任务和不同场景的数据实现知识共享,最终成为一个基座模型,衍化出针对不同应用需求优化的产品级应用模型矩阵。

第一,TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——让模型理解时间与方向。不同相机、不同角度、不同时间拍到的画面,常常让模型“迷失”。TVI Tokens 就像时间轴与方向罗盘,给每一帧画面加上时间和视角的标记,让模型知道这幅图像来自哪个角度、哪个时刻,从而理解空间的连续变化。它让模型同时兼容单目、环视、无人机等多种视觉输入方式,真正具备“世界在变化”的时空理解能力。

第二,BATS 策略(Budget-Aware Token Sampling)——让模型在算力受限下依然聪明。导航时的视频数据极其庞大,不可能每一帧都处理。BATS 策略像人类的注意力系统,会动态判断哪些画面是“关键帧”,哪些可以略过。越靠近当前时刻、越重要的场景,采样概率越高,从而节省算力又不损失判断准确性。这一机制让 NavFoM,这一7B参数级别的基座模型也能在真实机器人上毫秒级响应,兼顾实时性与精度。

给定 Token 上限,在不同帧数下的采样分布 给定视频帧数,在不同Token上限下的采样分布

千万级高质量数据,让模型“学懂世界”

NavFoM 的能力还来自于它庞大的训练数据体系。银河通用构建了前所未有的跨任务数据集:包含八百万条跨任务、跨本体导航数据,覆盖视觉语言导航,目标导航,目标跟踪,自动驾驶,网络导航数据等多种任务;以及四百万条开放问答数据,让模型具备语言与空间之间的语义理解能力,这一训练量约为以往工作的两倍左右;

训练数据量对比

为降低训练对硬件的需求并支持更大规模训练,团队还对图像数据采用了视觉特征缓存(cache)机制,从而显著减少在线计算开销、提升训练效率。这些数据覆盖了四足、人形、轮式、无人机等多种机器人形态,真正实现“在仿真中学,在现实中通”。

数据预处理

正因为有了这样的数据与工程保障,NavFoM 学到的不只是“走哪条路”,而是如何感知“世界的结构”和“目标的意义”。这让它在陌生环境下依然能自主推理,完成零样本导航与决策。

凭借架构创新与数据规模,NavFoM 在多个国际公开基准上均达到或刷新 SOTA 水平:在 VLN-CE、HM3D-OVON、NavSim 等任务中表现领先;在目标搜索、视觉语言导航、自动驾驶等任务上均展现强大的跨任务泛化能力。更重要的是,它能在真实机器人上直接部署,无需针对任务微调,只需修改自然语言指令或相机配置即可。

在实测中,NavFoM 成功驱动多种形态机器人执行复杂任务:四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划飞行、自动驾驶系统的路径推理与避障决策。一个模型,驱动所有形态,标志着具身智能通用导航智能的雏形已然成形。

体系再升维:从“智能基座”到“模型矩阵”

NavFoM 不仅仅是一项技术突破,更是银河通用具身大模型体系的重要基座。

以 NavFoM 的统一架构为基石,银河通用针对不同的落地需求,训练并发布了三个“身怀绝技”的应用模型:

•TrackVLA++ :其能力相对于TrackVLA显著升级,能实现30分钟以上稳定的长程自主跟随,室内和室外均不在话下、并能适应多种更复杂路况和地形;

•UrbanVLA:针对室外场景应用需求,和 第三方地图软件打通,可根据地图指引,自主规划最优路线并行至目的地,在街道、天桥、单元楼等各种环境中穿梭自如,堪称机器人的“自动驾驶”,难度和复杂度较汽车“自动驾驶”更甚一筹;

•MM-Nav: 支持360°无死角厘米级纯视觉避障,行业内首次突破躲避玻璃、细线等传统方案难以解决的极限困难,商业应用的“长尾困难”也轻松应对。

它们共同构成了从室内到城市、从汽车到机器人再到无人机的完整具身智能导航体系,让以导航大模型为驱动的具身智能机器人真正开始走向现实世界。

体系再再再升维:从“模型矩阵”到“规模化商业落地”

从单一任务模型到统一智能基座;以统一智能基座构建全栈模型矩阵;依托全栈模型矩阵实现规模化商业落地。银河通用正推动导航技术从“局部功能”进化为“智能基础设施”,让机器人真正具备“理解空间、适应变化、自主行走”的能力。这种体系化模型能力,是未来具身智能大规模落地的关键。从学习特定任务到理解通用知识,NavFoM作为业内首个跨本体全域环视的导航基座大模型,第一次让机器人拥有了类似人类的通用“方向感”——在陌生街区中找路、在人群中穿行、在复杂空间中预测障碍等等。

而本次NavFoM的发布也标志着银河通用完成了从机器人导航从单一功能创新到智能基座建设的跨越,其将和银河通用的操作基座大模型GraspVLA和GroceryVLA一起支撑起银河通用让具身大模型机器人走进千家万户、服务千行百业的宏大商业理想。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 小鹏机器人会走猫步太像人了!小鹏发布新一代人形机器人IRON

    在第七届小鹏科技日上,小鹏汽车发布全新人形机器人IRON,其拟人化程度领先,拥有仿生脊柱、肌肉及柔性皮肤,配备3D曲面显示与灵巧双手,实现22个自由度。搭载3颗图灵AI芯片,算力达2250TOPS,支持对话、行走等智能交互,并采用全固态电池提升安全性。集成自研物理世界模型与VLT/VLA/VLM能力,实现环境感知与反馈。IRON将优先应用于商业场景,并与宝钢合作探索工业巡检。小鹏宣布开放SDK,邀请全球开发者共建机器人应用生态。

  • 何小鹏:人形机器人进工厂不划算 做家务不安全

    今日,小鹏汽车发布旗下全新一代人形机器人IRON。 作为最拟人的人形机器人,IRON拥有骨骼-肌肉-皮肤”:仿人脊椎、仿生肌肉、全包覆柔性皮肤、头部3D曲面显示、仿生灵动双肩、实现22个自由度的灵巧手。 据何小鹏介绍,它的猫步走得像人一样轻柔,还拥有像人一样思考的大脑”,它不光是世界上最高算力的人形机器人,明年更会是最聪明的机器人之一。 现场,何小鹏还

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • “超脑+机器人”重构物流新生态!京东物流“狼族”机器人全阵容亮相世界物联网博览会

    10月31日,世界物联网博览会在无锡开幕,京东物流"狼族"智能机器人军团成为焦点。展会首次完整呈现"超脑+狼族"智能系统,展示天狼四向车、智狼扩展版、自动分播墙等新产品及成熟产品矩阵。系统实现全流程智能作业,分拣准确率超99.99%,存储坪效提升240%,作业人员减少58%。通过仓-站-人高效协同,昆山亚一智能物流园已实现近半数订单由机器人处理。京东物流计划未来5年采购300万台机器人,持续强化智能供应链技术底座,推动行业向科技驱动转型。

  • 新时达人形机器人新达“入职”海尔工厂,机器人真的开始进厂打工了?

    人形机器人新达在重庆海尔冰箱互联工厂成功落地,标志着具身智能机器人从实验阶段迈向场景实训。相比传统工业机器人,新达具备更高场景适应性和工序协同能力,能完成涂润滑油、物料搬运、智能巡检等复杂任务。其核心技术“大脑-小脑-本体”深度协同,通过视觉语言模型实现自主决策,全栈自研运动控制系统确保精准操作。这不仅是技术突破,更验证了工业制造从自动化向智能化升级的可行路径。

  • 累活、脏活让机器人干!海尔智家一工厂用上“人形机器人”

    海尔重庆冰箱互联工厂引入人形机器人“新达”,标志着制造业智能化进入新阶段。该机器人具备人类外形与智能内核,承担涂油、巡检、搬运等高强度作业,通过三大核心技术实现高效精准操作:基于视觉语言模型的“超强大脑”实现任务理解规划;自主研发的“灵活小脑”保障毫秒级实时响应;仿人形双臂与多模块感知系统构成“全能身体”。工厂通过机器人解放人力,践行“以人为本”理念,推动制造业向智能化、高效化与可持续发展迈进。

  • 北汽元境智能正式发布 车辆升级“全域智能体”

    10月28日,北汽极狐全新阿尔法T5上市发布会举行,北汽集团正式发布“北汽元境智能”技术架构。该架构覆盖从底层到体验、从真实到仿真世界的技术体系,实现研发到量产落地,展现北汽在智能网联汽车领域的最新成果。其核心为“全域融合”,通过三大层次——舱驾融合、跨生态AI融合、真实与虚拟世界融合,打破技术边界,提升智能驾驶与座舱体验。同时推出元境智驾和元境智舱两大产品,覆盖L2至L4全阶智驾,并强调安全开发理念,累计测试超5000万公里。北汽以开放平台与伙伴合作,推动智能出行技术进化。

  • TTi OS行业首发“四图融合”车道级导航

    2025年10月30日,TTi+OS车道级导航正式量产,成为行业首个“四图融合”产品。它基于自研多模态融合引擎,实现高精度导航信息直观呈现与便捷交互,提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能,实时识别车道位置,通过直觉式交互引导路径,帮助复杂路况操作。依托高算力平台,可视化呈现动态风险与辅助驾驶信息,增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计,兼具趣味性。目前该导航已搭载于深蓝L06车型,标志量产落地,未来将持续优化AI座舱体验,引领智能汽车科技进化。

  • 触觉增强世界模型引关注,一目科技IROS首秀定义机器人感知新维度

    在2025年IROS大会上,中国AI企业一目科技凭借触觉感知与具身智能领域的突破成为焦点。公司展示了全球最薄仿生视觉触觉传感器,厚度大幅缩减,实现0.005N三维力分辨率和120fps输出帧率。CEO李智强提出"视觉-触觉-语言-行动"新范式,指出触觉能捕捉物理世界的隐秘维度。通过创新仿真平台和生成式AI技术,突破传统数据收集限制,显著提升机器人操作技能训练效率。现场机械臂成功演示易碎品抓取等复杂任务,验证了触觉感知在精细操控中的核心价值,为"操控即服务"产业愿景提供技术支撑。

  • 华文众合携国内首款中小学具身教育智能机器人亮相第86届中国教装展

    10月24-26日,第86届中国教育装备展在青岛成功举办,聚焦“人工智能引领教育装备高质量发展”。华文众合展出智慧书法教室、智慧粉笔教室等创新产品,并发布国内首款中小学具身教育智能机器人“华文小弈”。该机器人融合AI语音交互、智能运动控制等功能,旨在通过寓教于乐方式提升课堂互动性。展会现场还通过经典古文背诵、AI书法教学等互动环节,展现科技与传统教�

今日大家都在搜的词: