首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

无万卡,不VLA:元戎启行与阿里云的“想法”和“解法”

2025-11-12 09:20 · 稿源: 站长之家用户

1980年代,卡内基梅隆大学的机器人专家汉斯·莫拉维克(Hans Moravec)提出人工智能领域的一个悖论:让计算机在逻辑推理、下棋等高级智力活动中达到甚至超越人类水平,相对容易;但要让它具备孩童那样的感知、运动和常识认知能力,却难于登天。

这个悖论的核心在于:对机器而言,真正的困难在于“理解”物理世界并与物理世界进行直觉式的交互。四十余年后,莫拉维克的观点,也投射在了智能驾驶的漫长征途上。

如果现在你跟智驾从业者深聊,会发现一个微妙的变化:几年前,从业者们还在为传感器的配置、特定场景的覆盖率等讨论不停;而今天,话题焦点又多了一个更具体的模型结构——VLA(视觉-语言-行动模型)。为什么?

一、智驾的终极体验,是“像人一样决策”

我们知道,要实现高阶智能驾驶,最大的挑战之一就在于:真实物理世界的复杂性和不确定性。比如,如何理解一个交警招手动作的复杂意图?如何判断一个滚向路边的足球背后是否会冲出一个孩子?它要求AI不仅要识别物体,更要理解场景、预测意图并进行复杂的因果推理。为何如此困难?

元戎启行创始人兼CEO周光,这位拥有物理学背景的AI博士,在前阵子和我们交流时一语道破其中的关键。他将驾驶行为划分为两个层次:一个是“Move like human”(像人一样行动),另一个是“Decision like human”(像人一样决策)。

周光认为,早期的AI决策模型,更擅长处理“条件反射式”的驾驶行为,比如跟车、车道保持、简单避障等,这些可以被归纳为“Move like human”(像人一样行动),但这只能解决95%常见的驾驶问题。

但决定智能驾驶安全性和体验感上限的,恰恰是那些需要推理和预判的长尾场景,也就是圈内常说的Corner Case。他举了一个直观例子:“前方两三百米外有施工,人类老司机会立刻观察后视镜,提前变道。但(早期的)智驾系统,可能是开到近处,识别出锥筒、水马这些障碍物时才做出反应,往往带来突兀和不舒适的驾乘体验。”

要解决这个长尾问题,系统必须具备周光所强调的“推理驾驶”(Inferential Driving)能力,这要求系统能够基于对物理世界规律的“理解”,进行复杂的因果推理和未来预测。

如果无法实现“Decision like human”,系统就可能停留在“高级的辅助驾驶”阶段,难以迈向L4乃至更高级别,无法让人类驾驶员真正放手。智能驾驶的本质,是一个需要理解并作用于真实物理世界的“物理AI”(Physical AI)命题。

要跨越这“最后一公里”,行业亟需一种能够赋予机器“认知”和“推理”能力的全新范式。这正是VLA这一模型结构,迅速成为当下行业新共识的根本原因。

二、VLA迈向推理驾驶

VLA将视觉(Vision)、语言(Language,代表认知和推理)和动作(Action)融合在一个统一框架内。这种融合带来了能力层级的质变,超越了简单的功能叠加。

“从旧架构变成GPT架构,这是一个根本性的变化。”周光反复强调。在他看来,过去的技术迭代(包括BEV等),都只是CNN框架下的“小版本更新”,而VLA才真正开启了智能驾驶的“大版本升级”,因为它让系统开始逼近“物理AI”的理想形态。

这种对技术本质的洞察,让元戎启行在技术路线上做到知行合一,坚信VLA是实现高阶智能驾驶的最优解。“要是不上VLA,我觉得是不可能到L5的。”周光判断,“VLA让业界真正看到了实现L5级完全自动驾驶的希望,未来的发展路径将紧跟大模型技术的演进。”

这家公司早在2019年刚创立不久,就完成了名为“全融合”的技术架构(即早期的BEV鸟瞰图技术)。到了2020年,便全力投入“无图”研发,让系统直接从摄像头等传感器获取的“原始数据”中学习,实时感知和理解物理世界。

到了2022年,周光和团队的预判得到了初步验证。他告诉我们,当时团队已经能通过算法,实时生成道路的拓扑结构图,虽然还不完美,但已经能清晰识别出路口和转向关系。这表示“无图”技术路线被成功跑通,为后续研发奠定了基础。

VLA带来的,是用户体验上可感知的“老司机感”,这种实实在在的体验变革,远胜于冰冷的参数:比如在复杂的城市路口,系统能预判可能出现的“鬼探头”,提前做出柔和的决策,而非急刹车;在人车混流的狭窄街道,系统能理解交通参与者的“意图”,进行更灵活的博弈,而不是死板地等待;面对临时施工或异形障碍物,系统能基于对物理世界的基本理解进行推理,做出合理应对。

这种从“辅助人”向“理解人”乃至“超越人”的进化,也有业界的权威观点支撑。阿里巴巴集团首席执行官吴泳铭此前在公开演讲中指出,通往超级人工智能(ASI)的关键瓶颈在于“真实世界的数据”和“自主学习”。他强调:“只有让AI与真实世界持续互动,获取更全面、更真实、更实时的数据,才能更好的理解和模拟世界,发现超越人类认知的深层规律。”

一句题外话,我们在写作之余回溯了周光早年的学术研究,发现他早在德州大学达拉斯分校攻读博士期间,就提出“去中心化自稳定算法”和“群体协作智能体”模型,探讨如何通过局部通信与自组织机制,让分布式系统在无中心控制下实现稳定协同。这种“由局部交互涌现全局智能”的逻辑,与VLA的视觉、语言、行动三模态的协同推理架构,在思想上已高度契合。

三、VLA 为何需要一座“算力电站”?

然而,为汽车装上VLA这个强大的“物理AI大脑”,难度巨大。它颠覆了传统的研发模式,带来三个“指数级”增长的挑战,让智驾公司必须重塑自己。

挑战一:数据处理的“量级之变”。VLA模型吃的不是“二手”的高精地图数据,而是物理世界最原始、最鲜活的多模态数据——海量的图像、视频、传感器信号。处理这些数据,对数据处理的吞吐量和效率提出了前所未有的要求。

挑战二:模型训练的“范式之变”。训练VLA模型,就像培养一个天才。不能从零教起,而是采用“知识蒸馏”技术:先用一个拥有千亿参数的云端“教师模型”(基座大模型)进行预训练,再将它的智慧“蒸馏”到车端仅有几十亿参数的“学生模型”上。这个过程,对算力集群的规模、稳定性和调度能力要求极高。

挑战三:研发效率的“成本之变”。“早些年几百张卡就能开个小作坊。”周光感慨,“但在VLA时代,几千张卡是起步,万卡是入场券。”研发成本结构也从过去“人力占97%,算力占3%”的劳动密集型,转向“人力与算力一半一半”的资本密集型。

阿里云智能AI汽车行业线销售总监黄晨,向我们揭示了一个残酷的现实:“一台GPU智算服务器,它每一分钟的成本都可以核算出来。你如果只用了70%,那么30%空跑的时间就是损失掉的真金白银。”

面对这些挑战,自建算力中心已非最优解。建设和运维一个“超万卡集群”,其工程复杂度、能耗和成本都是天文数字。智驾公司最明智的选择,是接入一个稳定、高效、且懂AI的“算力电网”。

这正是元戎启行与阿里云的合作进入深水区的原因。他们需要的不是简单的算力租赁,而是一个能解决VLA时代全链路挑战的合作伙伴。

四、超级AI云的全栈解法

具体而言,阿里云提供的“超级AI云”,是一套从IaaS(基础设施)、PaaS(平台工具)到MaaS(模型服务)的全栈式解决方案,精准解决其在VLA路上可能遇到的痛点,从而带来极致的效率优化。

第一重:以极致的工程能力,构筑稳定高效的算力基石(IaaS层)。

要解决“万卡集群甚至超万卡集群”的稳定性问题和通信效率瓶颈,无疑需要久经考验的系统工程能力。元戎启行的算力需求,主要由阿里云PAI-灵骏智算服务承载,PAI-灵骏的核心价值在于,通过自研的高性能网络及智能调度算法,能将大规模集群的AI算力利用率提升超过95%。对于“每一分钟都是钱”的智驾研发而言,这意味着巨大的成本节约和时间缩短。

VLA训练中,海量小文件的并发访问,对存储系统是极大考验。对此,阿里云的分布式文件系统CPFS就派上用场,它提供超高并发的多机读取能力,为万卡集群提供了数据的“饱和投喂”,确保元戎VLA模型训练极致高效。

此外,VLA大模型的训练也是一场围绕数据的精密接力赛:对元戎启行而言,百PB级的原始感知数据在深圳汇集、清洗和标注,最终在阿里云乌兰察布智算集群完成模型迭代。面对该问题,阿里云的云企业网CEN构建了一张覆盖全国的“算力一张网”,可实现数据和算力的灵活调度。同时,阿里云的全栈安全防护体系,可确保元戎启行在云端训练过程中的数据安全。

这些坚实的基础设施,共同构成了元戎启行在VLA时代加速奔跑的底气。

第二重:以独有的工具链,加速数据处理与模型迭代(PaaS层)。

说完了数据训练,那么说到数据处理,其效率也直接决定了模型训练的速度,如何高效完成海量多模态数据的清洗、标注和预处理,是模型训练的重要一步。

在数据处理方面,阿里云自研的分布式计算框架MaxFrame,日均可完成数十万级数据包处理,生成数百万Clips和数亿训练样本,相比开源框架性能提升40%以上。同时,结合智能数据开发治理平台DataWorks,可实现百万级任务统一开发调度与元数据追溯,高效支撑VLA模型海量多模态数据训练。这些工具链的高效协同,为VLA模型训练提供了充足且高质量的“燃料”。

接下来在模型训练阶段,迭代速度决定了竞争优势。阿里云专为智驾领域定制“加速包”PAI-TurboX,在数据层、计算层、系统层深度优化。阿里云计算平台事业部负责人汪军华介绍,TurboX能在多个主流模型上将训练时间缩短50%以上——这意味着元戎的模型迭代周期直接减半,能够更快将新技术能力应用到产品中。

第三重:以开源开放的生态,提供创新的战略纵深(MaaS层)。

如上文所提,VLA模型的构建并非从零开始,它需要强大的基座模型进行知识蒸馏和调优。在这一点上,阿里云的开源开放战略,为元戎启行提供了助力。

通义千问(Qwen)系列模型,作为全球第一的开源模型矩阵(根据Huggingface开源大模型榜单Open LLM Leaderboard),它目前全球下载量超6亿次,衍生模型超17万个,为行业提供了坚实基座。周光对此高度认可:“元戎启行经常用通义大模型去做一些蒸馏,通义开源挺好的。”这种开放性,让元戎启行得以站在基座模型的肩膀上,更高效优化自己的车端模型。

同时,它支持厂商基于开源能力做深度自研,这一点至关重要。这使得元戎启行能够将宝贵的研发资源,投入到智驾垂类知识的积累和创新上,而不是重复造轮子。

从IaaS的工程能力,到PaaS的工具链,再到MaaS的开源开放生态,阿里云提供的“超级AI云”全栈能力,构筑了其在智驾训练领域的重要地位。正如阿里云智能集团公共云事业部AI汽车行业总经理李强在一次公开演讲中提到,超过60%中国智能辅助驾驶的AI算力来自阿里云。这足以证明,阿里云已成为智驾训练中那朵好用的云。

五、选择对的伙伴,驶向更远的路

诚然,强大的技术基建,最终要转化为商业成果和产业引领。

在商业策略上,许多智驾公司广撒网、服务多个品牌车型(多SKU),而作为全栈智能驾驶解决方案提供商元戎启行,再次展现了与其技术路线一致的“专注”。

周光进一步指出,有的智驾公司SKU特别多,但月销可能只有几百台;元戎启行专注于“大单品”策略——集中资源与车企深度合作,打造爆款车型。在他看来,只有深度合作,才能打磨出极致的产品体验。“你越是做的散,做的杂,你这个产品越难。”

这种“少而精”的策略背后,是对自身技术研发效率的绝对自信。而这份自信,很大程度上来源于其选择了一个能提供长期价值、深刻理解AI、并具备开放生态的云合作伙伴。

当然,智驾的商业化过程中,成本控制也至关重要。如今智驾已成标配,而非溢价项。黄晨告诉我们:“车上有智驾,不一定让你多卖1万块,但如果没有,一定不被接受。”

换句话说,当智驾成为“标配”而非“溢价项”,Tier1供应商的利润空间被持续挤压。这样一来,选择云服务商,早已超越了单纯的资源采购,更上升为一项关乎核心竞争力的战略决策。因为云端基础设施的技术深度与工程效率,直接决定了算法迭代的速度和质量,进而影响最终产品的市场竞争力。

对元戎启行而言,与阿里云合作的核心价值,在于通过阿里云全栈式的技术能力(包括高效的基础设施、长期积累的技术价值、以及开源开放的生态),将每一分算力的技术价值发挥到极致。这正是其构筑自身技术壁垒、实现商业正循环的底气所在。

对于所有致力于在物理AI时代取得突破的智能驾驶参与者而言,元戎启行的实践极具参考价值:要跨越智能驾驶的“最后一公里”,需要拥抱VLA;而要高效地训练VLA,需要选择一朵像阿里云这样具备全栈能力、能够提供长期价值陪伴、且开源开放的“超级AI云”。

因为在新世界里,走得快需要好的技术。而走得远,则需要好的伙伴。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • “人工智能+消费”信号已明确,睡眠行业如何接棒?

    12月5日,商务部部长王文涛围绕“十四五”规划中“建设强大国内市场”与“大力提振消费”的核心部署,进一步阐释了具体路径。他特别指出,要着力推动“人工智能+消费”,并“释放绿色、智能等消费潜力”。这一政策信号,为众多产业的转型升级与未来发展提供了重要指引。尤其对于与日常生活息息相关的智能家居领域而言,未来的重点已不单是应用技术,更在于如何将“智能”切实转化为用户可感知的健康价值。在这一趋势下,行业关注的焦点逐渐从提供普适性的助眠放松,转向致力于解决与睡眠质量紧密相连的具体健康痛点。其中,脊柱健康问题成为一个极具代表性的突破口。现代社会的工

  • 第二届“兴智杯”总决赛暨人工智能赋能应用与创新生态活动成功举办

    第二届“兴智杯”全国人工智能创新应用大赛总决赛暨人工智能赋能应用与创新生态活动于2025年12月14-15日在深圳前海宝安片区举行。活动由中国信通院、深圳市人工智能产业办公室等单位主办,吸引了6000余支团队、1.8万余人参赛,覆盖全国及多个国家。大赛聚焦大模型创新、行业赋能等关键领域,通过专题赛和总决赛的激烈角逐,评选出优胜团队。活动期间举办了颁奖典礼及赋能应用与创新生态论坛,政府、企业、高校等各界嘉宾共同探讨AI技术创新趋势与应用落地路径,并发布大赛特色成果。论坛吸引三万余人线上观看,展现了我国人工智能产业的创新活力与发展潜力。

  • 趣链科技亮相2025智链·医疗人工智能生态大会

    近日,2025智链·医疗人工智能生态大会暨武汉数智病理发展大会在武汉举行。趣链科技携数字医疗领域最新应用亮相,聚焦数据要素在医疗场景下的安全流通与价值释放。其展示的“医疗可信数据空间”与“医疗高质量数据集平台”两大核心应用,通过“区块链+隐私计算”技术,助力机构在保障隐私前提下开展联合建模与科研协作,同时为AI训练提供标准化、高质量的数据支撑,推动智慧医疗高质量发展。

  • 响应“人工智能+消费”命题,AI喜临门打响价值升级战

    近期,两项高规格政策为智能睡眠行业指明发展路径。商务部和工信部等六部门分别提出推动“人工智能+消费”,并鼓励开发脑机接口等人工智能终端用于健康服务,开展智能家居大规模推广行动。政策聚焦脑机接口等前沿技术,推动行业向更深层次突破。喜临门与强脑科技(BrainCo)合作推出全球首款脑机接口AI床垫“宝褓·BrainCo”,首次将非侵入式脑电技术引入民用睡眠产品,旨在更直接评估睡眠状态和干预可能。这一实践呼应了政策鼓励的方向。同时,喜临门旗下aise宝褓率先通过国家《家具+智能等级评定及标识》标准,成为首个获得最高L4级认证的智能床垫品牌。行业努力方向已发生变化,不再满足于让床垫多几个调节模式或附加功能,而是开始朝着精准提升睡眠质量进化。政策已为智能睡眠行业勾勒出发展框架,真正的机会在于能否沿着这条确定的道路,通过不断投入研发和开放式协作,将智能化稳步转化为用户每晚可感知、可信任的健康价值。

  • 智汇瓯江 智引未来:2025中国人工智能数字创新大会在温州成功举办

    2025年12月13-14日,由中国人工智能学会等主办的2025中国人工智能数字创新大会在浙江温州召开。大会以“智汇瓯江 智引未来”为主题,汇聚了戴琼海、刘大响、胡德文等多位院士及全国高校、科研院所、企业的专家学者,围绕低空经济、具身智能、通信网络、超图计算等前沿领域展开深入交流。会议发布了系列白皮书、行业国家标准等重要成果,并举行了多个AI与数字创新领域人才、科研、产业机构的揭牌仪式。大会还设置了专题会议、同期活动及AI互动体验展,全景呈现了人工智能从技术到产业应用的全链条发展蓝图,旨在推动人工智能与实体经济的深度融合,助力数字中国建设。

  • 中关村AI北纬社区发布 北京市首个人工智能OPC服务计划

    随着人工智能技术加速演进与创业模式持续创新,“一人创业公司”(OPC)正成为推动“人工智能+”行动落地的重要创新力量。12月8日,中关村AI北纬社区联动海淀校友驿站、海淀大学生实习实践平台、AI北纬社区夜校,正式发布北京市首个人工智能OPC服务计划,探索打造人工智能OPC友好社区,让更多青年创业者“在这里,用AI孵化AI”,定义AI的千万种可能。

  • AI创新能力再获认可!易鑫获评智通财经“最具价值人工智能公司”

    易鑫集团在第十届智通财经资本市场年会上荣获“最具价值人工智能公司奖”,彰显了业界对其AI技术实力与产业贡献的高度认可。作为AI驱动的金融科技平台,易鑫自2018年起便将AI应用于风控与业务环节,2024年成为汽车金融领域首个通过生成式AI大模型备案的企业,率先实现业务全场景的AI规模化应用。今年公司AI创新持续加速,开源高性能推理模型,并发布行业首个Agentic大模型,赋能从获客、风控至客服、资管的全链路智能化决策。此次获奖不仅是对易鑫科技实力的肯定,更凸显了AI在汽车金融行业的价值创造潜力。

  • 园区成功举办“华为云杯”2025人工智能OPC应用创新大赛

    近年来,大模型技术爆发,基础设施、工程能力、数据质量和应用不断完善,推动人工智能更具推理和行动能力,深入制造、能源、医疗、城市治理等场景,解决复杂问题。政府与企业合作“搭台子”,加速AI创新和人才培养。12月4日,“华为云杯”2025人工智能OPC应用创新大赛在苏州工业园区举行,聚焦自主决策AI、工业物联网、智能硬件等方向,提出“OPC(个人+AI员工即公司)”理念,吸引众多团队参与。苏州工业园区作为全国首个聚焦人工智能产业的园区,已集聚相关企业超1800家,产业规模突破千亿元,并通过政策支持、搭建基础设施、构建产业生态,形成“筑巢引凤”良好态势。大赛成为汇聚创新要素、推动项目落地的重要平台,未来将持续完善创新孵化机制,营造繁荣的创新创业环境,为人工智能产业发展注入新活力。

  • 风磐科技入驻AI·镜界南京人工智能生态街

    11月23日,南京人工智能生态街区在软件谷开街,江苏风掣科技入驻并与中兴、华为等数十家企业共同开启AI新篇章。活动由南京市领导及工信部门负责人出席,风掣科技展示了自主研发的磐石智能分析系统,具备200TOPS算力、国产化支持及灵活部署能力,应用于应急布防、智慧安防等领域,助力产业国产化。街区聚焦智能引领与场景示范,推动AI与软件产业深度融合,打造创新生态体系。

  • 智启新元 海创未来—2025中国人工智能大会暨全国人工智能学院院长(系主任)年会全景回顾

    2025年11月29日至30日,由中国人工智能学会(CAAI)主办的2025中国人工智能大会暨全国人工智能学院院长(系主任)年会在北京海淀区盛大开幕。大会以“智启新元+海创未来”为主题,汇聚了来自全国AI行业领军企业、高校院所及科研机构的代表,聚焦“学术-产业-人才”深度联动,探讨“创新链、产业链、人才链”三链融合,旨在为“十五五”人工智能发展注入新动能。会议期间发布了《北京人工智能产业白皮书(2025)》、CAAI系列白皮书及“2026人工智能领域十大问题”,并见证了AI院长联盟的成立以及“CAAI-英博云高校算力支持计划”的启动。大会通过开幕式、主旨报告、专题会议、展览展示及生态签约等多元形式,全面展现了中国人工智能领域的创新活力与发展潜力。

今日大家都在搜的词: