首页 > 业界 > 关键词  > 理想汽车最新资讯  > 正文

李想:理想VLA司机大模型 就是从动物进化到人类

2025-05-08 08:36 · 稿源: 快科技

快科技5月7日消息,理想汽车今日晚间推出理想AI Talk第二季理想VLA司机大模型,从动物进化到人类”,理想汽车董事长兼CEO李想分享了对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。

李想将AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。

目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。

成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。

未来,AI发展为生产工具后,将能独立完成专业任务,显著提升效率与质量。

李想表示:判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇佣司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”

代入到自动驾驶领域来看,李想表示,目前的L2、L2 组合驾驶辅助仍属于辅助工具阶段。

而VLA(Vision-Language-Action Model,视觉语言行动模型)能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言, 未来的VLA就是一个像人类司机一样工作的司机大模型”。

VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应理想汽车辅助驾驶的昨天、今天和明天。

第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似昆虫动物智能”。

第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端 VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近哺乳动物智能”。

端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。

为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。

第三阶段,在端到端的基础上,VLA将开启人类智能”的阶段,它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。

同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。

李想:理想VLA司机大模型 就是从动物进化到人类

此外,李想还进一步分享了VLA的训练细节和运作原理。

VLA训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。

预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

后训练相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型。

强化训练类似于人类在社会中实际开车练习,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。

VLA司机大模型以司机Agent(智能体)”的产品形态呈现,用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。

简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。

李想:理想VLA司机大模型 就是从动物进化到人类

李想强调:理想人工智能走的是无人区,做VLA这件事,Deepseek、OpenAI、谷歌、Waymo都没有走过这条路,理想以前走的是汽车的无人区,以后走的是人工智能的无人区。

举报

  • 相关推荐
  • 买车送司机!理想i8全球首搭VLA司机大模型:老车主也能用

    在今晚举办的理想i8上市发布会上,理想自动驾驶负责人郎咸朋上台分享了理想自研VLA司机大模型的相关内容,据悉,这是一款视觉语言行动模型。 VLA即Vision-Language-Action Model,理想汽车希望该模型能让AI真正成为司机,成为交通领域的专业生产工具,像人类司机一样工作,甚至喊出了买车送司机”的口号。 VLA的实现是一个进化过程,经历了三个阶段。 第一阶段是2021年起自�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • 如何科学比价AI大模型?一文教你用好这个AI大模型比价免费计算工具

    本文探讨了当前AI大模型调用成本计算的重要性,介绍了AIbase费用计算器的实用功能。主要内容包括:1)不同厂商计费方式差异大,存在token/字符/调用次数等不同标准;2)AIbase工具支持主流模型费用对比,实时更新官方价格;3)提供输入输出分开计费模拟,支持自定义参数和结果排序;4)完全免费无需登录,适合快速查询。文章还给出选型建议:轻量任务选Claude Instant等低成本模�

  • AI 大模型选型指南:如何在众多模型中找到最适合你的那一个?

    本文探讨了如何从众多AI大模型中选择最适合自身需求的模型。文章提出应从四个核心维度进行评估:1)核心能力对比,包括通用任务表现和特定领域专长;2)成本与效率,考量API调用成本和响应速度;3)本地化与数据安全,满足合规要求;4)生态与社区支持,关注开发者活跃度和文档完善度。为解决模型对比难题,推荐使用专业平台如AIbase模型广场,可一站式对比主流模型的多维参数和评测数据。通过系统化评估,开发者能更高效地选择契合业务需求的AI模型。

  • 2025年国内AI大模型哪家强?上AI大模型选型对比工具,用数据说话!

    文章分析了国内AI大模型市场竞争格局,指出百度、阿里、腾讯、字节等科技巨头与初创公司纷纷布局,呈现繁荣景象。针对用户选型难题,提出需综合考虑参数规模、场景适配、成本效益等关键因素,并介绍了AIbase推出的AI大模型选型对比工具。该工具汇集主流模型最新数据,支持多维度能力对比和场景化筛选,帮助用户快速定位最适合自身需求的模型。最后强调没有"最强"的通用模型,只有最匹配特定场景的解决方案。

  • AI大模型对比完全指南:如何选择最适合你的大模型?

    文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型,普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系,包括基础能力、技术性能、应用场景和商业考量四个维度,并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点:GPT-4o在多模态交互领先,Claude3在编程和逻辑分析突出,Gemini2.5擅长长文本处理,国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求,而非简单追求性能排名,建议通过专业对比平台和实际测试来验证。

  • AI大模型那么多,该如何科学对比选型?

    文章探讨了当前AI大模型选择的困境,指出随着国内外模型数量激增,用户面临选择难题。作者提出应从实际需求出发,考虑模型能力、成本、使用方式、中文支持等核心维度,避免只看参数规模或流行度的误区。特别推荐使用AIbase模型广场等对比工具,可快速比较多个模型的详细参数、调用方式和价格差异。文章以中文写作为例,对比了通义千问、月之暗面、文心一言和GPT-4�

  • 哪个大模型性价比最高?用这个 AI 大模型费用计算器轻松比价

    AI大模型快速发展,但不同厂商的定价规则差异大,导致选择困难。AIbase推出的AI大模型费用计算器(https://model.aibase.com/zh/calculator)能帮助开发者快速比较主流模型的调用成本。该工具覆盖GPT-4、Claude、文心一言等国内外热门模型,支持输入输出分开计费,实时更新官方定价,无需注册即可使用。用户只需输入文本,系统自动拆分token数并精准计算费用,结果清晰直观可排序。建议根据场景需求选择模型:平衡成本与性能可选GPT-4o、DeepSeek-V2;高精度需求选GPT-4 Turbo;中文场景优选国产模型。使用前通过计算器模拟成本,可避免项目超支风险。

  • 星辰聚智·才启未来:2025世界人工智能大会中国电信发布系列前沿能力及AI产品

    7月27日,TeleAI科技前沿论坛在上海模速空间举办,主题为"星辰聚智·才启未来"。论坛汇聚全球行业专家、青年学者及企业家,探讨AI创新趋势。中国电信发布多项AI成果:1)TeleAI研究院凭借大模型创新获2025SAIL之星奖;2)提出"智传网"三大定律(信容律、同源律、集成律)及生成式智能传输等创新技术;3)发布"星小辰"智能终端,整合高德地图、航旅纵横等服务;4)推出首款智能眼镜"天翼AI智镜",具备物体识别、实时翻译等功能;5)启动"青年智算计划",投入超600P算力支持AI创新。论坛展示AI在终端、机器人等领域的深度应用,体现中国电信"云改数转智惠"战略布局。

热文

  • 3 天
  • 7天