首页 > 业界 > 关键词  > 自动驾驶最新资讯  > 正文

中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM

2023-12-04 09:09 · 稿源:站长之家

要点:

  • 由中科院自动化所研究团队提出的 Drive-WM 模型结合多视图世界模型,利用 Diffusion 模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。

  • Drive-WM 模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。

  • Drive-WM 的生成能力提供新思路,特别是在面对 Out-of-Distribution(OOD)场景时,通过生成视频进行微调,使规划器在复杂场景中表现更佳,揭示了未来场景评估对规划的提升作用。

站长之家(ChinaZ.com)12月4日 消息:随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的 Drive-WM 模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。在 CVPR2023自动驾驶研讨会上,Drive-WM 模型引起了广泛关注。

该模型不仅突破了世界模型与端到端规划的整合,还在面对 OOD 场景时表现出鲁棒性。通过对比实验,作者揭示了目前端到端规划器在面对 OOD 情况时的不足之处,而 Drive-WM 模型则通过生成视频进行学习,提高规划器在复杂场景中的性能。

image.png

论文地址:https://arxiv.org/pdf/2311.17918.pdf

此外,Drive-WM 还展示了其多视图视频生成的出色能力,通过引入时序层的编码和视图分解建模,实现了时空一致性。论文详细描述了模型的设计和控制选项,包括使用文本、场景布局、运动信息来控制多视图视频的生成,展示了其高质量和可控性。

Drive-WM 对于自动驾驶系统有着潜在影响,世界模型与端到端规划的结合将提高自动驾驶的安全、稳定和可靠性。这一技术突破有望推动自动驾驶领域迈向新的里程碑。

举报

  • 相关推荐
  • 中科院院士欧阳明高:预计L4级全自动驾驶2030年规模商业化

    快科技3月29日消息,在今日举办的中国电动汽车百人会论坛2025上,中国电动汽车百人会副理事长、中国科学院院士欧阳明高发表了演讲。他预测,2030年,基于先进的端到端大模型的L4级全自动驾驶乘用车在中高级乘用车规模商业化。欧阳明高深入剖析,多模态大模型作为端到端算法的核心支撑,将为高阶自动驾驶技术注入强大动力。然而,他也指出,确保大模型的安全性与可靠性,仍是当前亟待攻克的关键课题。他同时指出,L3自动驾驶需要尽快解决相关法律法规问题,L4级自动驾驶需要积累经验循序渐进,暂时不宜提全民自动驾驶。据了解,L4级无人驾?

  • 何小鹏:我们要成为物理世界模型第一名

    快科技4月14日消息,今晚小鹏汽车创始人何小鹏发文称,我们的目标是成为物理世界大模型的第一名,推动汽车,机器人,飞行汽车领域的巨大变化。”今天,小鹏在香港举办AI技术分享会,首次披露正在研发720亿参数的超大规模自动驾驶大模型,也即小鹏世界基座模型”。未来,小鹏将通过云端蒸馏小模型的方式将基模部署到车端,给AI汽车”配备全新的大脑。小鹏世界基座�

  • 可灵AI发布全新2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • 马斯克称明年特斯拉可完全自动驾驶

    特斯拉CEO马斯克宣布,公司计划年底前推出面向个人用户的全自动驾驶功能,并预计明年下半年实现数百万辆汽车完全自动驾驶。特斯拉已实现从生产线到停车场的全程自主驾驶,展示其自动驾驶技术积累。同时,特斯拉正扩展业务模式,包括为客户和工厂提供基于AI技术的自主机器人Optimus。预计年底前数千台Optimus将投入工厂工作,助力生产自动化。公司计划到2029或2030年实现Optimus年产量达100万台,开启机器人技术新纪元。

  • 能理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 周鸿祎直言:机器人研发难度远超自动驾驶

    文章主要讲述了AI技术在医疗领域的应用与影响。AI被用于诊断、治疗、研究和预测,提高了医疗系统的效率和准确性。AI能够快速分析大量数据,辅助医生做出更精准的诊断,同时在药物开发、病理分析和个性化治疗方面展现出巨大潜力。文章指出,AI技术在医疗领域的发展虽然面临隐私和伦理挑战,但也为患者带来了更个性化的服务和治疗方案。整体而言,AI在医疗领域的应用仍然受到传统医疗体系的制约,但其优势在于能够处理大量复杂信息,促进医学研究的深入发展。

  • L4级自动驾驶!埃安滴滴合作新车亮相

    快科技4月13日消息,最近,广汽埃安与滴滴自动驾驶合作开发的首款L4级自动驾驶车型正式亮相。这款合作车型将滴滴自动驾驶全新一代硬件平台与广汽埃安的安全冗余平台相结合,具备全球化适配能力,计划于2025年底量产交付。据悉,滴滴自动驾驶的硬件平台配备了33个传感器,包括激光雷达、摄像头、4D毫米波雷达、红外相机和声音传感器等。通过多传感器异构探测与前融合的方式,能够实现360全场景、全工况感知识别,这种多维度的感知能力,使得车辆在复杂路况下也能精准识别周围环境。此外,滴滴自动驾驶还全栈自研了行业首个可量产的、三域融

  • 马斯克谈自动驾驶底层逻辑:无论路上发生什么都不碰撞

    特斯拉副总裁陶琳分享马斯克对自动驾驶底层逻辑的观点:首要指令是"不能撞车",这一原则绝对优先于其他考量。马斯克强调,无论道路标线如何错误,甚至出现UFO挡路,车辆都必须确保安全。特斯拉坚持视觉架构+端到端神经网络技术路线,正是为了在任何情况下都能避免碰撞。自动驾驶的核心追求只有一个:无论发生什么情况,特斯拉都不会发生碰撞。保障每个人的安全始终是技术路径选择中的最优先考量。

  • 文远知行推 “文远出行” App,自动驾驶出行便捷再升级

    近日,“全球Robotaxi第一股”文远知行宣布,正式将旗下移动出行 App「WeRide Go」更名为「文远出行」。此次更名不仅简化了 App 的名称,还上线了备受期待的 “预约专车接送” 功能,为用户带来更便捷、高效的自动驾驶出行体验。用户可在各大软件商店轻松搜索并下载「文远出行」App。通过这款 App,用户能够一键呼叫文远知行的 robotaxi 无人出行服务,还能实时查看文远知行�

  • 马斯克:将出现新方案实现自动驾驶 仅需摄像头和AI芯片

    站长之家(ChinaZ.com) 4月15日 消息:当地时间4月14日,特斯拉首席执行官埃隆·马斯克在社交媒体透露,公司即将推出基于纯AI技术的全自动驾驶(FSD)解决方案。该方案完全依赖摄像头与特斯拉自主研发的AI芯片,并由其AI软件驱动,与特斯拉长期坚持的“纯视觉自动驾驶”技术路线一致。特斯拉近期通过官方X账号发布视频,展示其德克萨斯工厂内FSD无监督技术的应用场景。视频�