首页 > 业界 > 关键词  > 正文

毫末智行数据智能科学家贺翔:为什么一定要用大模型、大算力开启自动驾驶3.0时代?

2023-07-05 15:00 · 稿源: 凤凰网科技

凤凰网科技讯 7月5日消息,近日,毫末智行联合清华大学智能产业研究院(AIR)举办了今年第二场自动驾驶精品公开课,深入分享了大数据、大算力、大模型驱动下的自动驾驶发展趋势和技术原理。

现场,毫末智行数据智能科学家贺翔以《大数据、大算力、大模型驱动下的自动驾驶》为主题,从AI大模型的内核讲起,结合毫末发布的业内首个自动驾驶生成式大模型DriveGPT雪湖海若,通过毫末在自动驾驶行业里用大模型思路实践经验,全面分享了大模型技术落地自动驾驶的新范式。

回顾自动驾驶行业过去这些年的发展,贺翔将技术演进分为了3个阶段,即以硬件驱动为主的1.0时代、以软件驱动为主的2.0时代,以及正在进入的、以数据驱动为主要特征的自动驾驶3.0时代。“自动驾驶3.0时代的特点,是Transformer这样千亿级别的大模型,模型参数很大,一定是大参数、大模型、大数据。而大模型的必要条件是有大的算力。”

贺翔认为,自动驾驶当前的技术范式与十几年前的自然语言处理技术非常相近,即小数据、小模型,通过采集各种各样的交通数据、进行人工标注、再用这些数据训练出小模型,然后再把模型部署到车上,结合业务规则,去控制车。这种模式的弊端十分明显——一旦量产上车,当数十万辆车在全国各地跑起来,就会出现各种各样的路况、场景,如果还按照之前的思路去做人工标注,一方面,需要消耗大量的人力成本和时间,另一方面,则永远不可能标注完所有场景,就像运载着各种货物的挂车这类交叉组合的特殊场景需要做出不同种类的标注,而这种组合几乎是无穷的。

2023年4月,基于GPT大模型所具有的生成式、预训练、人类反馈强化学习等技术优势,毫末将视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型等五大模型进行统一升级,发布了行业首个自动驾驶生成式大模型DriveGPT雪湖海若。

据贺翔介绍,DriveGPT大模型现在分成两个阶段,一个阶段是更通用、更基础的能力,即空间计算能力。另一个阶段是做驾驶决策,即要知道怎么开车。也就是在空间计算能力之上,再去叠加认知决策的能力。“驾驶决策,这其实还是一项特殊的技能,需要我们所有人学开车时候都要去驾校学一遍,大模型就相当于做(驾驶技能教学)这个事情。驾驶的技能都需要依赖对周围空间的三维感知,这种空间感知能力也是一种通用能力,我们希望这种通用感知能力,能对接不同的决策模型,完成不同的任务。例如对接自动驾驶决策模型就可以实现自动驾驶、对接机器人决策模型就可以实现具身机器人等等。

贺翔表示,DriveGPT目前仍然以云端训练和推理的方式为主,但它已可以通过多种方式来赋能车端智驾能力。首先,可以通过多模态大模型的场景理解能力,进行高效数据筛选,为车端小模型训练提供所需要的海量极端、困难场景数据。

在现场问答环节,面对“大模型到底能给自动驾驶带来什么样飞跃”的提问,贺翔解释说:“我们希望通过大模型非常强大的泛化能力,能够大规模提升自动驾驶对于corner case的处理能力,有了这种能力之后,自动驾驶可以去任何地方,任何路况,自动驾驶的范围能处理的场景可能比现在大得多。”

而当谈到自动驾驶的“ChatGPT时刻”会在什么时候到来时,贺翔也给出了自己的看法。在他看来,ChatGPT之所以给了大家如此大的震撼,在于它天然是多面手。但是,一方面,在自动驾驶领域里面,不同于ChatGPT只处理文本信号,自动驾驶还要处理图片、点云、交通法规、地图、驾驶行为等一系列信息,自动驾驶要处理的数据模态更复杂;另一方面,自动驾驶对模型的输出精度要求更高、可解释性要求也更强。面对这种特别复杂的模态、特别高的输出要求,实现自动驾驶大模型道阻且长,但行则将至。

举报

  • 相关推荐
  • 全国进入雨季 雷军晒用车指南 嘱咐大家一定要小心驾驶

    这份指南包括出行前的用车准备、行车中的安全事项、雨季停车安全及救援三大部分。 其中提到小米SU7 Ultra具备湿滑模式,开启后动力更柔和,在低附着路面自动分配前后电机动力,有效防止打滑,提供更加稳定的行驶表现。 车主还可以开启外后视镜自动加热功能,在中控屏幕下打开设置-车辆控制-外后视镜自动加热,当车辆检测到下雨且雨刮器开启时,将自动开启外后视�

  • 神秘物体每44分钟向地球眨1次眼 科学家解释不了

    近期,澳大利亚科廷大学、中国南京大学等研究机构的天文学家在大约16000光年之外,偶然发现一个神秘物体。 该神秘物体与以往任何见过的天体都不同,它每44分钟就会向地球眨眼般地闪光一次,每次持续2分钟。 原本科学家以为,它只是又一个脉冲星的亲戚”。直到最近,美国NASA的钱德拉X射线望远镜捕捉到同一个地方居然也在发出同步的X射线这才让事情变得不寻常起来�

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • 特斯拉自动驾驶新突破:车辆将首次从生产线直接开到客户家中

    特斯拉创始人兼首席执行官埃隆马斯克宣布,Robotaxi公开试运营预计将于6月22日开始,首辆实现全自动驾驶的特斯拉汽车计划于6月28日从工厂生产线直接开到客户家中。 如果这一计划成功实施,将标志着特斯拉在自动驾驶技术领域取得重大突破。 马斯克一直对特斯拉的自动驾驶技术充满信心,并多次预测该技术将在未来几年内得到广泛应用。 此前,马斯克称,供个人使用的

  • 宇树王兴兴谈如何成为顶尖人才:一定要超脱课本 主动持续学习

    今日,宇树科技创始人王兴兴发文致高考考生,谈到了如何投身具身智能行业,并给即将进入大学的同学一些高考志愿及人生规划方面的建议。 王兴兴在长文中谈到了如何成为顶尖人才。 他认为,如果想成为最顶尖的人才一定要超脱课本,主动持续学习,学习当下最前沿的科技领域,持续关注顶级学术会议最新论文等。 同时还要积极参与最具探索性的开源项目并尝试复现�

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • 马上消金推出 “天镜” 3.0:开启个体智慧向群体智慧的跃迁

    6月6日,重庆举办"2025消费金融生态大会",马上消费金融在会上发布"天镜"大模型3.0版本。该模型突破传统工具定位,升级为决策平台,实现从个体智慧到群体智慧的系统性跃迁。作为全国首个零售金融大模型,"天镜"已覆盖营销、客服等八大领域,服务超2亿用户。3.0版本通过独创技术将非结构化数据转化为可理解知识,实现最佳实践的系统性萃取,并能动态拆解复杂服务流程。马上消费累计申请专利超2500件,主导参与国内外标准超百项,获得金融科技权威认证41项。公司表示将持续以技术创新推动金融行业智能化变革。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • 从心脏、到血管……3D打印开启“器官替换”时代

    为了确保3D打印的人工器官能正常运行,必须让血管充分发挥功能。若无法稳定供血,人工器官的广泛使用根本无从谈起……