首页 > 传媒 > 关键词  > 机器狗最新资讯  > 正文

机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

2025-11-05 16:39 · 稿源: 站长之家用户

今年6月,一支机器狗的视频在社交平台上刷屏——它在未训练过的真实场景(如人流密集的商场里)zero-shot地跟随用户,完成自主移动、避障、转向,并能能听懂“跟着妈妈”、“去陪孩子”的语音指令。 那背后,是银河通用发布的导航大模型 TrackVLA(让机器人「满大街跑」走进现实:银河通用发布产品级端到端导航大模型TrackVLA)。该模型由仿真大数据训练,在真实复杂场景中实现sim2real,完成智能的用户跟随,展现了极强的C端应用落地潜力。

最近,银河通用的导航大模型技术又迎来了质的飞跃。银河通用联合北京大学、阿德莱德大学、浙江大学等团队,推出了全球首个跨本体全域环视的导航基座大模型——NavFoM(Navigation Foundation Model)。 如果说 TrackVLA 让机器人学会“跟着人走”,那么 NavFoM 的意义在于——让机器人掌握全栈“移动的基础知识”。作为基座大模型,其自身可以做到:

•全场景:同时支持室内和室外场景,未见过的场景zero-shot运行,无需建图和额外采集训练数据;

•多任务:支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务;

•跨本体:可快速低成本适配机器狗、轮式人形、腿式人性、无人机、甚至汽车等不同尺寸的异构本体。

除此之外,该模型允许开发人员以之为基座,通过后训练,进一步进化成满足特定导航要求的应用模型。下面将从技术视角,解析其技术特点,介绍以此为基石衍生出的应用模型具身和对应的产业应用价值。

“导航”是具身智能的基础能力之一

导航是所有机器人移动操作的基础,也是感知、理解、决策、行动的综合体现。然而在过去很长一段时间里,具身导航的技术体系是相对碎片化的——不同任务(如跟随、搜索、驾驶)各用一套算法,不同机器人(如四足、人形、无人机)又各自训练模型。每换一个任务或本体,模型就得重新开发。这样的割裂不仅使得具身导航模型训练时效率低,二次开发难度大,还造成具身模型商用落地周期长,在不同本体上、不同场景中规模化商业应用的边际成本高等问题。

对此,银河通用的研发团队认为,让机器人具备可迁移智能、迈向大规模商用的第一步是让具身导航模型技术凝聚成一个通用的具身大脑,即构建一个能多任务、全场景、跨本体的具身导航大模型基座,实现让具身导航模型从“学会完成一条导航智能”到“真正理解机器人移动”的跨越。

从 TrackVLA 到 NavFoM:不仅能“跟着走”更能“自己找路”

基于这一思考,银河通用联合北京大学、阿德莱德大学、浙江大学等团队共同发布了新一代导航基座大模型——NavFoM(Navigation Foundation Model)。

这是全球首个跨本体全域环视导航基座大模型,把Vision-and-Language Navigation、Object-goal Navigation、Visual Tracking和Autonomous Driving等不同机器人的导航任务统一到相同的范式。如果说 TrackVLA 是让机器人能听懂人类语言、跟随目标前进,那么 NavFoM 的目标是让机器人能够自主感知世界,在完全未知的环境中自己决定去哪、怎么走。

统一范式:让不同机器人“掌握共性的移动知识”

NavFoM 重新定义了导航的底层逻辑。

过去,导航任务往往被拆分成识别、定位、规划等独立模块,模型之间缺乏统一语言。而 NavFoM 建立了一个全新的通用范式:“视频流 + 文本指令 → 动作轨迹”。无论是“跟着那个人走”,还是“找到门口的红车”,在 NavFoM 里都是同一种输入输出形式。模型不再依赖模块化拼接,而是端到端地完成“看到—理解—行动”的全过程。

这意味着,曾经割裂的任务经过统一的数据对齐和任务建模可以互相迁移;不同形态的机器人能共享学习经验和运动知识。例如,四足机器人在商场里学到的“避让人群”经验,可能会帮助无人机在空中理解“动态障碍”;自动驾驶模型中的“道路预测”,也能反哺轮式机器人在室内路径规划中的判断。统一的输入与决策机制,让机器人真正具备了跨任务的“认知迁移”能力。

体系升维:从“任务模型”到“智能基座”:

NavFoM 通过两项关键技术创新构建统一学习范式,让机器人不仅看得懂、记得住、学得会,还能联合利用不同本体、不同任务和不同场景的数据实现知识共享,最终成为一个基座模型,衍化出针对不同应用需求优化的产品级应用模型矩阵。

第一,TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——让模型理解时间与方向。不同相机、不同角度、不同时间拍到的画面,常常让模型“迷失”。TVI Tokens 就像时间轴与方向罗盘,给每一帧画面加上时间和视角的标记,让模型知道这幅图像来自哪个角度、哪个时刻,从而理解空间的连续变化。它让模型同时兼容单目、环视、无人机等多种视觉输入方式,真正具备“世界在变化”的时空理解能力。

第二,BATS 策略(Budget-Aware Token Sampling)——让模型在算力受限下依然聪明。导航时的视频数据极其庞大,不可能每一帧都处理。BATS 策略像人类的注意力系统,会动态判断哪些画面是“关键帧”,哪些可以略过。越靠近当前时刻、越重要的场景,采样概率越高,从而节省算力又不损失判断准确性。这一机制让 NavFoM,这一7B参数级别的基座模型也能在真实机器人上毫秒级响应,兼顾实时性与精度。

给定 Token 上限,在不同帧数下的采样分布            给定视频帧数,在不同Token上限下的采样分布

千万级高质量数据,让模型“学懂世界”

NavFoM 的能力还来自于它庞大的训练数据体系。银河通用构建了前所未有的跨任务数据集:包含八百万条跨任务、跨本体导航数据,覆盖视觉语言导航,目标导航,目标跟踪,自动驾驶,网络导航数据等多种任务;以及四百万条开放问答数据,让模型具备语言与空间之间的语义理解能力,这一训练量约为以往工作的两倍左右;

               训练数据量对比

为降低训练对硬件的需求并支持更大规模训练,团队还对图像数据采用了视觉特征缓存(cache)机制,从而显著减少在线计算开销、提升训练效率。这些数据覆盖了四足、人形、轮式、无人机等多种机器人形态,真正实现“在仿真中学,在现实中通”。

数据预处理

正因为有了这样的数据与工程保障,NavFoM 学到的不只是“走哪条路”,而是如何感知“世界的结构”和“目标的意义”。这让它在陌生环境下依然能自主推理,完成零样本导航与决策。

凭借架构创新与数据规模,NavFoM 在多个国际公开基准上均达到或刷新 SOTA 水平:在 VLN-CE、HM3D-OVON、NavSim 等任务中表现领先;在目标搜索、视觉语言导航、自动驾驶等任务上均展现强大的跨任务泛化能力。更重要的是,它能在真实机器人上直接部署,无需针对任务微调,只需修改自然语言指令或相机配置即可。

在实测中,NavFoM 成功驱动多种形态机器人执行复杂任务:四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划飞行、自动驾驶系统的路径推理与避障决策。一个模型,驱动所有形态,标志着具身智能通用导航智能的雏形已然成形。

体系再升维:从“智能基座”到“模型矩阵”

NavFoM 不仅仅是一项技术突破,更是银河通用具身大模型体系的重要基座。

以 NavFoM 的统一架构为基石,银河通用针对不同的落地需求,训练并发布了三个“身怀绝技”的应用模型:

•TrackVLA++ :其能力相对于TrackVLA显著升级,能实现30分钟以上稳定的长程自主跟随,室内和室外均不在话下、并能适应多种更复杂路况和地形;

•UrbanVLA:针对室外场景应用需求,和 第三方地图软件打通,可根据地图指引,自主规划最优路线并行至目的地,在街道、天桥、单元楼等各种环境中穿梭自如,堪称机器人的“自动驾驶”,难度和复杂度较汽车“自动驾驶”更甚一筹;

•MM-Nav: 支持360°无死角厘米级纯视觉避障,行业内首次突破躲避玻璃、细线等传统方案难以解决的极限困难,商业应用的“长尾困难”也轻松应对。

它们共同构成了从室内到城市、从汽车到机器人再到无人机的完整具身智能导航体系,让以导航大模型为驱动的具身智能机器人真正开始走向现实世界。

体系再再再升维:从“模型矩阵”到“规模化商业落地”

从单一任务模型到统一智能基座;以统一智能基座构建全栈模型矩阵;依托全栈模型矩阵实现规模化商业落地。银河通用正推动导航技术从“局部功能”进化为“智能基础设施”,让机器人真正具备“理解空间、适应变化、自主行走”的能力。这种体系化模型能力,是未来具身智能大规模落地的关键。从学习特定任务到理解通用知识,NavFoM作为业内首个跨本体全域环视的导航基座大模型,第一次让机器人拥有了类似人类的通用“方向感”——在陌生街区中找路、在人群中穿行、在复杂空间中预测障碍等等。

而本次NavFoM的发布也标志着银河通用完成了从机器人导航从单一功能创新到智能基座建设的跨越,其将和银河通用的操作基座大模型GraspVLA和GroceryVLA一起支撑起银河通用让具身大模型机器人走进千家万户、服务千行百业的宏大商业理想。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 自变量机器人CEO王潜:让通用机器人真正走入千家万户

    深圳初创公司自变动机器人成立不到一年半融资超20亿,背后是阿里、美团等巨头重注。创始人王潜是清华学霸,曾参与奠定Transformer架构的注意力机制研究。公司采用“端到端大模型”技术路线,其WALL-A模型能完成拉拉链、叠衣服等复杂操作。王潜认为家庭是机器人最大市场,预计3-4年会出现早期产品,商业化路径从To B切入逐步延伸至To C。尽管进展显著,他清醒认识到通往通用机器人的道路上仍充满挑战。

  • 普渡机器人携手亚朵集团,以机器人技术引领酒店服务新纪元

    近日,普渡机器人与亚朵集团达成合作,其楼宇配送机器人“闪电匣”正式上线亚朵供应商库,成为亚朵酒店智能化升级的重要伙伴。该机器人具备自主导航、精准避障、智能乘梯等功能,可完成从酒店前台至客房的全流程无人化配送,并与智能货柜系统整合,实现“即选即送”的闭环服务。双方将共同探索酒店服务流程重构与人机协同优化,推动行业数字化、智能化转型,为住宿产业带来创新解决方案。

  • 普渡机器人发布行业级四足机器人PUDU D5系列, 引领多形态具身智能发展

    12月3日,普渡机器人发布新款行业级自主导航四足机器人PUDU D5系列。该产品专为复杂、非结构化及大面积户外环境打造,具备超强算力自主导航、多模态交互、全地形通过能力及IP67级防护,可在巡检、运输、勘探等任务中稳定运行。D5系列提供点足和轮足两个版本,满足不同需求。其高算力双芯架构、全方位高精度感知系统及仿生轮足融合设计,使其能在崎岖地形、恶劣天气等极端条件下可靠作业,精准填补了户外及工业非标场景的应用空白。

  • 海尔冰箱全域ToC模式造就多个爆款

    2025年以来,冰箱市场整体承压,但海尔冰箱实现量价双增,成为头部品牌中唯一逆势增长者。其核心在于推动“全域ToC”战略变革,让用户深度参与产品研发与营销。通过AI交互云、用户社区等数字化入口,海尔实时收集需求并快速迭代产品,如推出首款暖色调冰箱“麦浪”。营销上贴近用户场景,实施“3个30天”计划,从真实体验到生活化种草,有效提升产品热度。这种模式使“麦浪”冰箱9个月售出超百万台,成为行业爆款,同时减轻了经销商库存压力。

  • 科技普惠 机器人日租金低至百元内 京东机器人自营租赁服务亮相2025世界智能制造大会

    2025世界智能制造大会于11月27日开幕,主题为“数智驱动+新质领航”,旨在构建国际化、高端化、专业化的全球智能制造合作平台。京东联合30余家顶尖机器人品牌亮相,覆盖陪伴娱乐、养老助老、家庭教育及商业服务等多场景。京东推出机器人自营租赁服务,日租金低至77元起,通过“可买可租”灵活机制降低体验门槛,并提供专属保险、透明定价与专业配送服务。该服务是京东“智能机器人产业加速计划”的重要环节,计划三年内助力百个机器人品牌实现销售破十亿,推动机器人进入超百万实际场景。

  • 告别“木头人”!ROBOMIND让机器人“主动懂你”!

    文章探讨了家用陪伴机器人从“被动响应”向“主动服务”的转变。当前多数产品仍停留在“你说一句,我做一步”的阶段,缺乏感知决策能力,无法理解用户深层需求。其技术瓶颈在于依赖预设程序,缺乏自主感知环境、理解需求并做出判断的能力。为解决此问题,INDEMIND推出了ROBOMIND机器人物理AI大脑,旨在赋予机器人全局空间智能,使其能主动感知环境动态、理解用户行为、洞察需求本质,并自主触发服务流程。通过“端侧+云端”混合架构,实现低成本、快响应、高泛化。在实际应用中,该技术已能实现养老守护、儿童陪伴、宠物照料、家庭管理等场景的主动服务,并深入情感交互层面,推动机器人从高效工具向具有亲和力的“伙伴”蜕变。其核心价值在于找到用户真实痛点,作为家庭关系的有价值补充,为家人创造更多高质量相处时间。

  • 李想:未来10年最有价值的机器人是汽车

    昨晚的理想汽车2025Q3财报会议上,理想汽车CEO李想表示:未来10年,具身智能最有价值的产品一定是具备自动和主动能力的汽车”。 在李想看来,汽车行业的产品定位需跳出电动车”与智能终端”的局限。 若仅将产品定义为电动车”,竞争会陷入参数比拼的红海,续航、车长等指标的细微差异难以创造核心价值,且更强传感器、算力等投入会沦为成本负担。 若定位智能终端

  • 第二十七届高交会机器人馆盛大收官:数千亿级成果催生智能时代新周期

    第二十七届中国国际高新技术成果交易会在深圳圆满落幕。本届高交会机器人馆以"人机共生·智启未来"为主题,汇聚300余家机器人全产业链企业,集中展示人形机器人、协作机器人等前沿成果,呈现从核心零部件到整机制造的完整产业链。展会实现数千亿元规模技术交易,凸显中国智能制造加速产业化进程,彰显深圳作为全球科技创新高地的产业集聚效应与国际影响力。

  • 甲亢哥直播暴力损毁人形机器人Rizzbot:开发公司直接起诉索赔

    日前,全网拥有超过5000万粉丝的甲亢哥”直播了他与人形机器人Rizzbot”的会面。 然而,这场看似普通的会面却演变成一场法律纠纷。 有媒体近日报道,Rizzbot的开发公司Social Robotics已于上月向法院提交诉状,对甲亢哥及其团队进行起诉。 诉状称,甲亢哥在直播过程中对Rizzbot实施了多次暴力行为,造成不可修复的损害”。

  • 特斯拉发布人形机器人跑步视频:Optimus刷新了个人纪录

    特斯拉CEO马斯克12月3日转发擎天柱团队发布的机器人跑步视频,引发关注。视频中擎天柱动作流畅自然,但时长仅4秒。团队称刷新了个人纪录。此前马斯克曾展示机器人执行任务视频,并称机器人将提升全球财富,让工作从必需变为可选。特斯拉11月宣布人形机器人试产线已在弗里蒙特工厂运行,第三代生产线计划2026年建成投产。公司表示规模化生产后,每台成本将控制在2万美元以内。

今日大家都在搜的词: