首页 > 业界 > 关键词  > 自动驾驶最新资讯  > 正文

中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM

2023-12-04 09:09 · 稿源:站长之家

要点:

  • 由中科院自动化所研究团队提出的 Drive-WM 模型结合多视图世界模型,利用 Diffusion 模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。

  • Drive-WM 模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。

  • Drive-WM 的生成能力提供新思路,特别是在面对 Out-of-Distribution(OOD)场景时,通过生成视频进行微调,使规划器在复杂场景中表现更佳,揭示了未来场景评估对规划的提升作用。

站长之家(ChinaZ.com)12月4日 消息:随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的 Drive-WM 模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。在 CVPR2023自动驾驶研讨会上,Drive-WM 模型引起了广泛关注。

该模型不仅突破了世界模型与端到端规划的整合,还在面对 OOD 场景时表现出鲁棒性。通过对比实验,作者揭示了目前端到端规划器在面对 OOD 情况时的不足之处,而 Drive-WM 模型则通过生成视频进行学习,提高规划器在复杂场景中的性能。

image.png

论文地址:https://arxiv.org/pdf/2311.17918.pdf

此外,Drive-WM 还展示了其多视图视频生成的出色能力,通过引入时序层的编码和视图分解建模,实现了时空一致性。论文详细描述了模型的设计和控制选项,包括使用文本、场景布局、运动信息来控制多视图视频的生成,展示了其高质量和可控性。

Drive-WM 对于自动驾驶系统有着潜在影响,世界模型与端到端规划的结合将提高自动驾驶的安全、稳定和可靠性。这一技术突破有望推动自动驾驶领域迈向新的里程碑。

举报

  • 相关推荐
  • 蔚来世界模型NWM将于5月30日量推送

    智能泊车方面,蔚来世界模型NWM展现出了显著优势。它具备360超视距车位识别能力,无需车辆处于特定起点位置,用户可在任意位置、任意挡位下发起泊车指令。这一特性极大地提高了泊车的便捷性和灵活性,让用户不再受传统泊车方式的限制。在泊车过程中,NWM能够实时规划泊车轨迹,确保车辆准确、高效地停入车位。同时,它还支持借用通道实现长距离漫游泊车,即使面�

  • 一句话搞定金融复杂工作,容联云大模型知识助理全新升级!

    容联云大模型知识助手全新升级,聚焦"更高效率、更懂金融、更好体验",推出实时语音问答与语音检索两大核心功能。升级亮点包括:1)秒级响应的实时语音问答,支持复杂金融政策解读和理财产品对比分析;2)语义穿透的实时语音检索,可精准定位海量金融文档关键信息,检索效率提升40%;3)深耕金融领域知识,深入理解业务逻辑,提供专业可靠支持;4)支持多音色切换,满足个性化需求。该助手已应用于内部管理、统数运营、营销增长和客户服务四大场景,显著提升业务效率,如客户咨询转化率提升30%、业务办理效率提升60%。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 仅用三张像即可生成 3D 场景,苹果 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • 小马智行CEO彭军透露:小马智行自动驾驶出租车已取消了安

    快科技5月15日消息,近日,小马智行CEO 彭军接受媒体采访时,透露了小马运营车辆已取消安全员的这一消息。彭军表示,小马智行很多体实际体验都没有安全员,也不是一步做到的。他解释说在最早的研发和测试阶段,都是带着安全员的,小马是在两年半以前真正做到足够安全之后,才把安全员去掉了。所以,彭军强调,小马智行最近的运营车辆是不带安全员的。他认为,随着技术以及政策层面的快速发展,远程监督员人车比放宽,若放宽至1:3甚至更高比例,单车监督员的成本也将从数十万元降至两三万元,这项成本下探也有利于单车盈利转正。与此同时,

  • 持续霸榜!可灵2.0模型登顶球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 慢前逆转革新之路:卫中科技用中国智慧解决世界难题

    本文探讨了慢性病已成为全球公共卫生重大挑战的现状。数据显示,慢性病导致的死亡占全球总死亡人数的70%,与现代人不健康的生活方式密切相关。我国超60%成年人超重或肥胖,30%患高血压,10%患糖尿病。卫中科技提出"新中式·健康生活方式"理念,整合传统中医养生智慧与现代科技,致力于通过"技术破壁、文化破圈、模式破局"三重路径,构建慢性病预防领域的中国标准。该企业计划培养百万健康生活方式教练,推动健康干预从医院前移至家庭,实现疾病早期预防和精准管理。卫中科技的愿景是让每个家庭都拥有一位健康守护者,助力人类健康寿命突破120岁,为全球健康事业贡献中国智慧和中国方案。

  • 法网见证:文远知行与雷诺集团深化合作,自动驾驶赛事服务标杆

    文远知行与雷诺集团再度合作,成为2025年法国网球公开赛唯一L4级自动驾驶接驳服务商。服务路线全长2.8公里,连接多个赛事场馆,新增夜间服务时段。这是双方继去年成功合作后的再次携手,文远小巴在复杂城市交通环境中展现出安全可靠的自动驾驶能力。作为全球首款前装量产自动驾驶小巴,该车型已获得包括法国在内的五个国家牌照,正在欧洲加速拓展商业化运营。此次合作进一步验证了L4自动驾驶技术在真实场景的成熟度,推动欧洲绿色低碳公交转型。

  • 因闸门和铁链碰撞,Waymo召回1200辆自动驾驶出租车

    Waymo在文件中表示,其安全委员会决定召回该特定版本的自动驾驶软件,以“履行相关监管报告义务”……

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。