首页 > 业界 > 关键词  > 理想汽车最新资讯  > 正文

李想:理想VLA司机大模型 就是从动物进化到人类

2025-05-08 08:36 · 稿源: 快科技

快科技5月7日消息,理想汽车今日晚间推出理想AI Talk第二季理想VLA司机大模型,从动物进化到人类”,理想汽车董事长兼CEO李想分享了对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。

李想将AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。

目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。

成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。

未来,AI发展为生产工具后,将能独立完成专业任务,显著提升效率与质量。

李想表示:判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇佣司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”

代入到自动驾驶领域来看,李想表示,目前的L2、L2 组合驾驶辅助仍属于辅助工具阶段。

而VLA(Vision-Language-Action Model,视觉语言行动模型)能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言, 未来的VLA就是一个像人类司机一样工作的司机大模型”。

VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应理想汽车辅助驾驶的昨天、今天和明天。

第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似昆虫动物智能”。

第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端 VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近哺乳动物智能”。

端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。

为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。

第三阶段,在端到端的基础上,VLA将开启人类智能”的阶段,它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。

同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。

李想:理想VLA司机大模型 就是从动物进化到人类

此外,李想还进一步分享了VLA的训练细节和运作原理。

VLA训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。

预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

后训练相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型。

强化训练类似于人类在社会中实际开车练习,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。

VLA司机大模型以司机Agent(智能体)”的产品形态呈现,用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。

简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。

李想:理想VLA司机大模型 就是从动物进化到人类

李想强调:理想人工智能走的是无人区,做VLA这件事,Deepseek、OpenAI、谷歌、Waymo都没有走过这条路,理想以前走的是汽车的无人区,以后走的是人工智能的无人区。

举报

  • 相关推荐
  • 李想AI Talk第二季来了:理想VLA司机大模型从动物人类进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • 或超过人类平均水平!AI 大模型将如何改造智能客服?

    本文探讨了AI大模型如何推动智能客服升级。每日互动产品总监高志成指出,传统智能客服存在"答非所问"问题,主要受限于算法覆盖不足、相似性匹配机制和逐句识别方式。而大语言模型能基于上下文深度理解,精准把握客户意图,实现"所答即所问"的基本要求。未来智能客服将朝五个方向升级:1)精准理解应答;2)更自然的沟通方式;3)主动挖掘需求和销售转化;4)自动构建决策模型;5)实现营销服务一体化应用。高志成认为,随着AI技术发展,智能客服水平将超越人工客服平均水平,不仅能处理售前咨询,还能部分解决售后问题。企业需构建完善的知识库体系,将商品信息、活动信息等单独做成知识库,通过数据标注构建更立体的用户画像。最终,智能客服将向"售前+售后"全能型发展,承担更大责任。

  • 百度公布动物语言转换专利 可实现动物与人类沟通

    据专利文件披露,这一技术通过采集动物的声音、行为及体征等多模态数据,经预处理后融合为统一格式,并基于数据分析识别动物当前的情感状态。最终,系统将情感识别结果转化为人类可理解的语言,形成语言转换输出。这一流程不仅提升了跨物种沟通的准确性

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 理想汽车CEO李想评价梁文锋:我跟他聊过 他有两个特点

    在谈及梁文锋所具备的自律品质时,李想表达了自己的见解。他指出,自律最大特点,在于一个人能够坚守你相信的东西,能够坚守这些最佳实践,能跟人性的一些懒惰、走捷径做对抗。正是这份在诱惑与惰性面前毫不动摇的坚守,让李想对梁文锋这类自律者满怀由衷的敬佩。

  • 理想开源星环OS 李想回应:不设任何商业模式

    理想汽车今日正式发布《理想星环OS技术白皮书》,系统阐述了汽车操作系统的定义、发展趋势,并结合创新场景案例,详细介绍了理想星环OS的技术架构及核心系统。自4月底起,理想汽车将在官方网站“开源论坛”逐步开放各模块源代码。理想汽车董事长李想表示,此次白皮书发布是星环OS开源进程的第一步。他强调,星环OS自立项之初便定�

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 迅雷一键即可完成大模型下载

    近日,迅雷为提升用户使用体验,让用户能够更快更好地批量下载大模型所有文件,已针对大模型下载场景进行了优化,并上线了新版本插件,下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是,在使用迅雷该插件功能创建任务时,将同时创建相对应的文件夹,下载完成后,所有文件都将在一个文件夹中,相比传统浏览器——需要用户逐个手动点击下载图标并�

  • 九为健康联合华为云发布神农中医大模型智能体,解码如何用大模型重构“望闻问切”

    2025 年 4 月 11 日,在华为云生态大会上,浙江九为健康科技股份有限公司(以下简称"九为健康")正式发布基于华为云盘古大模型的"九为神农中医大模型智能体"。该解决方案依托AI技术,系统性攻克中医药研发周期长、作用机制解析困难、个性化方案制定复杂等产业难题,通过智能化手段推动中医药现代化进程,为医药全产业链提供覆盖研发、诊疗及健康管理的全流程智能服�