无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

2025-11-12 09:20 · 稿源：站长之家用户

1980年代，卡内基梅隆大学的机器人专家汉斯·莫拉维克（Hans Moravec）提出人工智能领域的一个悖论:让计算机在逻辑推理、下棋等高级智力活动中达到甚至超越人类水平，相对容易;但要让它具备孩童那样的感知、运动和常识认知能力，却难于登天。

这个悖论的核心在于:对机器而言，真正的困难在于“理解”物理世界并与物理世界进行直觉式的交互。四十余年后，莫拉维克的观点，也投射在了智能驾驶的漫长征途上。

如果现在你跟智驾从业者深聊，会发现一个微妙的变化:几年前，从业者们还在为传感器的配置、特定场景的覆盖率等讨论不停;而今天，话题焦点又多了一个更具体的模型结构——VLA（视觉-语言-行动模型）。为什么?

一、智驾的终极体验，是“像人一样决策”

我们知道，要实现高阶智能驾驶，最大的挑战之一就在于:真实物理世界的复杂性和不确定性。比如，如何理解一个交警招手动作的复杂意图?如何判断一个滚向路边的足球背后是否会冲出一个孩子?它要求AI不仅要识别物体，更要理解场景、预测意图并进行复杂的因果推理。为何如此困难?

元戎启行创始人兼CEO周光，这位拥有物理学背景的AI博士，在前阵子和我们交流时一语道破其中的关键。他将驾驶行为划分为两个层次:一个是“Move like human”（像人一样行动），另一个是“Decision like human”(像人一样决策)。

周光认为，早期的AI决策模型，更擅长处理“条件反射式”的驾驶行为，比如跟车、车道保持、简单避障等，这些可以被归纳为“Move like human”（像人一样行动），但这只能解决95%常见的驾驶问题。

但决定智能驾驶安全性和体验感上限的，恰恰是那些需要推理和预判的长尾场景，也就是圈内常说的Corner Case。他举了一个直观例子:“前方两三百米外有施工，人类老司机会立刻观察后视镜，提前变道。但（早期的）智驾系统，可能是开到近处，识别出锥筒、水马这些障碍物时才做出反应，往往带来突兀和不舒适的驾乘体验。”

要解决这个长尾问题，系统必须具备周光所强调的“推理驾驶”（Inferential Driving）能力，这要求系统能够基于对物理世界规律的“理解”，进行复杂的因果推理和未来预测。

如果无法实现“Decision like human”，系统就可能停留在“高级的辅助驾驶”阶段，难以迈向L4乃至更高级别，无法让人类驾驶员真正放手。智能驾驶的本质，是一个需要理解并作用于真实物理世界的“物理AI”（Physical AI）命题。

要跨越这“最后一公里”，行业亟需一种能够赋予机器“认知”和“推理”能力的全新范式。这正是VLA这一模型结构，迅速成为当下行业新共识的根本原因。

二、VLA迈向推理驾驶

VLA将视觉（Vision）、语言(Language，代表认知和推理)和动作(Action)融合在一个统一框架内。这种融合带来了能力层级的质变，超越了简单的功能叠加。

“从旧架构变成GPT架构，这是一个根本性的变化。”周光反复强调。在他看来，过去的技术迭代（包括BEV等），都只是CNN框架下的“小版本更新”，而VLA才真正开启了智能驾驶的“大版本升级”，因为它让系统开始逼近“物理AI”的理想形态。

这种对技术本质的洞察，让元戎启行在技术路线上做到知行合一，坚信VLA是实现高阶智能驾驶的最优解。“要是不上VLA，我觉得是不可能到L5的。”周光判断，“VLA让业界真正看到了实现L5级完全自动驾驶的希望，未来的发展路径将紧跟大模型技术的演进。”

这家公司早在2019年刚创立不久，就完成了名为“全融合”的技术架构（即早期的BEV鸟瞰图技术）。到了2020年，便全力投入“无图”研发，让系统直接从摄像头等传感器获取的“原始数据”中学习，实时感知和理解物理世界。

到了2022年，周光和团队的预判得到了初步验证。他告诉我们，当时团队已经能通过算法，实时生成道路的拓扑结构图，虽然还不完美，但已经能清晰识别出路口和转向关系。这表示“无图”技术路线被成功跑通，为后续研发奠定了基础。

VLA带来的，是用户体验上可感知的“老司机感”，这种实实在在的体验变革，远胜于冰冷的参数:比如在复杂的城市路口，系统能预判可能出现的“鬼探头”，提前做出柔和的决策，而非急刹车;在人车混流的狭窄街道，系统能理解交通参与者的“意图”，进行更灵活的博弈，而不是死板地等待;面对临时施工或异形障碍物，系统能基于对物理世界的基本理解进行推理，做出合理应对。

这种从“辅助人”向“理解人”乃至“超越人”的进化，也有业界的权威观点支撑。阿里巴巴集团首席执行官吴泳铭此前在公开演讲中指出，通往超级人工智能（ASI）的关键瓶颈在于“真实世界的数据”和“自主学习”。他强调:“只有让AI与真实世界持续互动，获取更全面、更真实、更实时的数据，才能更好的理解和模拟世界，发现超越人类认知的深层规律。”

一句题外话，我们在写作之余回溯了周光早年的学术研究，发现他早在德州大学达拉斯分校攻读博士期间，就提出“去中心化自稳定算法”和“群体协作智能体”模型，探讨如何通过局部通信与自组织机制，让分布式系统在无中心控制下实现稳定协同。这种“由局部交互涌现全局智能”的逻辑，与VLA的视觉、语言、行动三模态的协同推理架构，在思想上已高度契合。

三、VLA 为何需要一座“算力电站”?

然而，为汽车装上VLA这个强大的“物理AI大脑”，难度巨大。它颠覆了传统的研发模式，带来三个“指数级”增长的挑战，让智驾公司必须重塑自己。

挑战一:数据处理的“量级之变”。VLA模型吃的不是“二手”的高精地图数据，而是物理世界最原始、最鲜活的多模态数据——海量的图像、视频、传感器信号。处理这些数据，对数据处理的吞吐量和效率提出了前所未有的要求。

挑战二:模型训练的“范式之变”。训练VLA模型，就像培养一个天才。不能从零教起，而是采用“知识蒸馏”技术:先用一个拥有千亿参数的云端“教师模型”（基座大模型）进行预训练，再将它的智慧“蒸馏”到车端仅有几十亿参数的“学生模型”上。这个过程，对算力集群的规模、稳定性和调度能力要求极高。

挑战三:研发效率的“成本之变”。“早些年几百张卡就能开个小作坊。”周光感慨，“但在VLA时代，几千张卡是起步，万卡是入场券。”研发成本结构也从过去“人力占97%，算力占3%”的劳动密集型，转向“人力与算力一半一半”的资本密集型。

阿里云智能AI汽车行业线销售总监黄晨，向我们揭示了一个残酷的现实:“一台GPU智算服务器，它每一分钟的成本都可以核算出来。你如果只用了70%，那么30%空跑的时间就是损失掉的真金白银。”

面对这些挑战，自建算力中心已非最优解。建设和运维一个“超万卡集群”，其工程复杂度、能耗和成本都是天文数字。智驾公司最明智的选择，是接入一个稳定、高效、且懂AI的“算力电网”。

这正是元戎启行与阿里云的合作进入深水区的原因。他们需要的不是简单的算力租赁，而是一个能解决VLA时代全链路挑战的合作伙伴。

四、超级AI云的全栈解法

具体而言，阿里云提供的“超级AI云”，是一套从IaaS（基础设施）、PaaS(平台工具)到MaaS(模型服务)的全栈式解决方案，精准解决其在VLA路上可能遇到的痛点，从而带来极致的效率优化。

第一重:以极致的工程能力，构筑稳定高效的算力基石（IaaS层）。

要解决“万卡集群甚至超万卡集群”的稳定性问题和通信效率瓶颈，无疑需要久经考验的系统工程能力。元戎启行的算力需求，主要由阿里云PAI-灵骏智算服务承载，PAI-灵骏的核心价值在于，通过自研的高性能网络及智能调度算法，能将大规模集群的AI算力利用率提升超过95%。对于“每一分钟都是钱”的智驾研发而言，这意味着巨大的成本节约和时间缩短。

VLA训练中，海量小文件的并发访问，对存储系统是极大考验。对此，阿里云的分布式文件系统CPFS就派上用场，它提供超高并发的多机读取能力，为万卡集群提供了数据的“饱和投喂”，确保元戎VLA模型训练极致高效。

此外，VLA大模型的训练也是一场围绕数据的精密接力赛:对元戎启行而言，百PB级的原始感知数据在深圳汇集、清洗和标注，最终在阿里云乌兰察布智算集群完成模型迭代。面对该问题，阿里云的云企业网CEN构建了一张覆盖全国的“算力一张网”，可实现数据和算力的灵活调度。同时，阿里云的全栈安全防护体系，可确保元戎启行在云端训练过程中的数据安全。

这些坚实的基础设施，共同构成了元戎启行在VLA时代加速奔跑的底气。

第二重:以独有的工具链，加速数据处理与模型迭代（PaaS层）。

说完了数据训练，那么说到数据处理，其效率也直接决定了模型训练的速度，如何高效完成海量多模态数据的清洗、标注和预处理，是模型训练的重要一步。

在数据处理方面，阿里云自研的分布式计算框架MaxFrame，日均可完成数十万级数据包处理，生成数百万Clips和数亿训练样本，相比开源框架性能提升40%以上。同时，结合智能数据开发治理平台DataWorks，可实现百万级任务统一开发调度与元数据追溯，高效支撑VLA模型海量多模态数据训练。这些工具链的高效协同，为VLA模型训练提供了充足且高质量的“燃料”。

接下来在模型训练阶段，迭代速度决定了竞争优势。阿里云专为智驾领域定制“加速包”PAI-TurboX，在数据层、计算层、系统层深度优化。阿里云计算平台事业部负责人汪军华介绍，TurboX能在多个主流模型上将训练时间缩短50%以上——这意味着元戎的模型迭代周期直接减半，能够更快将新技术能力应用到产品中。

第三重:以开源开放的生态，提供创新的战略纵深（MaaS层）。

如上文所提，VLA模型的构建并非从零开始，它需要强大的基座模型进行知识蒸馏和调优。在这一点上，阿里云的开源开放战略，为元戎启行提供了助力。

通义千问（Qwen）系列模型，作为全球第一的开源模型矩阵(根据Huggingface开源大模型榜单Open LLM Leaderboard)，它目前全球下载量超6亿次，衍生模型超17万个，为行业提供了坚实基座。周光对此高度认可:“元戎启行经常用通义大模型去做一些蒸馏，通义开源挺好的。”这种开放性，让元戎启行得以站在基座模型的肩膀上，更高效优化自己的车端模型。

同时，它支持厂商基于开源能力做深度自研，这一点至关重要。这使得元戎启行能够将宝贵的研发资源，投入到智驾垂类知识的积累和创新上，而不是重复造轮子。

从IaaS的工程能力，到PaaS的工具链，再到MaaS的开源开放生态，阿里云提供的“超级AI云”全栈能力，构筑了其在智驾训练领域的重要地位。正如阿里云智能集团公共云事业部AI汽车行业总经理李强在一次公开演讲中提到，超过60%中国智能辅助驾驶的AI算力来自阿里云。这足以证明，阿里云已成为智驾训练中那朵好用的云。

五、选择对的伙伴，驶向更远的路

诚然，强大的技术基建，最终要转化为商业成果和产业引领。

在商业策略上，许多智驾公司广撒网、服务多个品牌车型（多SKU），而作为全栈智能驾驶解决方案提供商元戎启行，再次展现了与其技术路线一致的“专注”。

周光进一步指出，有的智驾公司SKU特别多，但月销可能只有几百台;元戎启行专注于“大单品”策略——集中资源与车企深度合作，打造爆款车型。在他看来，只有深度合作，才能打磨出极致的产品体验。“你越是做的散，做的杂，你这个产品越难。”

这种“少而精”的策略背后，是对自身技术研发效率的绝对自信。而这份自信，很大程度上来源于其选择了一个能提供长期价值、深刻理解AI、并具备开放生态的云合作伙伴。

当然，智驾的商业化过程中，成本控制也至关重要。如今智驾已成标配，而非溢价项。黄晨告诉我们:“车上有智驾，不一定让你多卖1万块，但如果没有，一定不被接受。”

换句话说，当智驾成为“标配”而非“溢价项”，Tier1供应商的利润空间被持续挤压。这样一来，选择云服务商，早已超越了单纯的资源采购，更上升为一项关乎核心竞争力的战略决策。因为云端基础设施的技术深度与工程效率，直接决定了算法迭代的速度和质量，进而影响最终产品的市场竞争力。

对元戎启行而言，与阿里云合作的核心价值，在于通过阿里云全栈式的技术能力（包括高效的基础设施、长期积累的技术价值、以及开源开放的生态），将每一分算力的技术价值发挥到极致。这正是其构筑自身技术壁垒、实现商业正循环的底气所在。

对于所有致力于在物理AI时代取得突破的智能驾驶参与者而言，元戎启行的实践极具参考价值:要跨越智能驾驶的“最后一公里”，需要拥抱VLA;而要高效地训练VLA，需要选择一朵像阿里云这样具备全栈能力、能够提供长期价值陪伴、且开源开放的“超级AI云”。

因为在新世界里，走得快需要好的技术。而走得远，则需要好的伙伴。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

跨境支付的未来：人工智能、嵌入式金融和即时结算

本文系统分析了人工智能、嵌入式金融与即时结算三大技术趋势如何重构跨境支付体系。人工智能通过智能填单、动态风控和预测性维护显著提升支付效率与安全性；嵌入式金融将支付功能无缝融入电商平台与供应链，实现“无跳转支付”；即时结算技术将跨境支付时间从数日缩短至秒级，并优化现金流。三大技术深度融合形成协同效应，推动跨境支付向更智能、高效、无缝�

全球支付生态数字化浪潮跨境支付体系
人工智能落地“最后一公里”，戴尔工作站助力AI应用提速

AI应用落地面临“最后一公里”部署难题：传统流程繁琐耗时，从模型开发到上线需数周。英特尔携手戴尔与零克云打造“工作站-AI PC-云端”协同生态，通过本地工作站进行小规模测试验证，降低试错成本与数据泄露风险，再通过“一键部署”快速扩展至云端规模化落地。这种“先本地验证、后云端放大”的路径显著提升开发效率，释放团队创造力，让有价值的AI想法快速照进现实。

AI部署模型上线服务器配置
简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案，标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑，该模型围绕用户兴趣成长周期设计，提供个性化学习支持：可为未明确兴趣方向的用户智能推荐内容，为入门用户规划学习路径，为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖，并通过社群互动增强学习动力。公司未来将持续优化模型能力，联合行业伙伴构建完整培养体系，推动兴趣教育向个性化、高质量方向发展。

简智AI大模型生成式人工智能兴趣教育
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
何小鹏：大众将成小鹏第二代VLA首发客户

在今日举办的2025小鹏科技日”发布会上，小鹏汽车董事长何小鹏官宣第二代VLA。他还重磅宣布称，大众汽车成为了小鹏第二代VLA首发客户，同时小鹏自研的图灵AI芯片也获得大众定点。据悉，第二代VLA也即小鹏首个量产物理世界大模型，既是动作生成模型，也是理解和推演的物理世界

小鹏汽车第二代VLA 大众汽车
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
推进AI体验普及三星Galaxy手机开启智能新范式

在AI技术革新时代，三星Galaxy手机通过Galaxy AI重塑用户体验，从旗舰到中端产品全面普及。核心功能包括：即时简报整合日程与资讯，智能拖拽实现跨应用高效操作，Bixby语音助手升级多模态理解能力，支持图像识别与自然对话。影像方面，AI提供生成式编辑与智能优化，提升拍摄自由度和画质。同时，三星推出专属管家服务，保障用户安心使用。Galaxy AI正推动智能交互普及，让更多用户享受高效、可靠的智慧生活助力。

AI技术智能手机 Galaxy
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据

今日大家都在搜的词：

热文

3 天
7天

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

跨境支付的未来：人工智能、嵌入式金融和即时结算

人工智能落地“最后一公里”，戴尔工作站助力AI应用提速

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

何小鹏：大众将成小鹏第二代VLA首发客户

人工智能巨头OpenAI拟上市估值或高达1万亿美元

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

推进AI体验普及三星Galaxy手机开启智能新范式

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

小米超级小爱AI大模型推出随心修图功能

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

荣耀500系列官宣将于11月24日发布

阿里巴巴回应千问崩了：状态良好欢迎来问

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

华为Mate 80系列已在华为商城开启预约

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

站长商机