首页 > 业界 > 关键词  > 自动驾驶最新资讯  > 正文

中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM

2023-12-04 09:09 · 稿源:站长之家

要点:

  • 由中科院自动化所研究团队提出的 Drive-WM 模型结合多视图世界模型,利用 Diffusion 模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。

  • Drive-WM 模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。

  • Drive-WM 的生成能力提供新思路,特别是在面对 Out-of-Distribution(OOD)场景时,通过生成视频进行微调,使规划器在复杂场景中表现更佳,揭示了未来场景评估对规划的提升作用。

站长之家(ChinaZ.com)12月4日 消息:随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的 Drive-WM 模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。在 CVPR2023自动驾驶研讨会上,Drive-WM 模型引起了广泛关注。

该模型不仅突破了世界模型与端到端规划的整合,还在面对 OOD 场景时表现出鲁棒性。通过对比实验,作者揭示了目前端到端规划器在面对 OOD 情况时的不足之处,而 Drive-WM 模型则通过生成视频进行学习,提高规划器在复杂场景中的性能。

image.png

论文地址:https://arxiv.org/pdf/2311.17918.pdf

此外,Drive-WM 还展示了其多视图视频生成的出色能力,通过引入时序层的编码和视图分解建模,实现了时空一致性。论文详细描述了模型的设计和控制选项,包括使用文本、场景布局、运动信息来控制多视图视频的生成,展示了其高质量和可控性。

Drive-WM 对于自动驾驶系统有着潜在影响,世界模型与端到端规划的结合将提高自动驾驶的安全、稳定和可靠性。这一技术突破有望推动自动驾驶领域迈向新的里程碑。

举报

  • 相关推荐
  • 蔚来世界模型NWM将于5月30日全量推送

    智能泊车方面,蔚来世界模型NWM展现出了显著优势。它具备360超视距车位识别能力,无需车辆处于特定起点位置,用户可在任意位置、任意挡位下发起泊车指令。这一特性极大地提高了泊车的便捷性和灵活性,让用户不再受传统泊车方式的限制。在泊车过程中,NWM能够实时规划泊车轨迹,确保车辆准确、高效地停入车位。同时,它还支持借用通道实现长距离漫游泊车,即使面�

  • 一句话搞定金融复杂工作,容联云大模型知识助理全新升级!

    容联云大模型知识助手全新升级,聚焦"更高效率、更懂金融、更好体验",推出实时语音问答与语音检索两大核心功能。升级亮点包括:1)秒级响应的实时语音问答,支持复杂金融政策解读和理财产品对比分析;2)语义穿透的实时语音检索,可精准定位海量金融文档关键信息,检索效率提升40%;3)深耕金融领域知识,深入理解业务逻辑,提供专业可靠支持;4)支持多音色切换,满足个性化需求。该助手已应用于内部管理、统数运营、营销增长和客户服务四大场景,显著提升业务效率,如客户咨询转化率提升30%、业务办理效率提升60%。

  • 特斯拉自动驾驶新突破:车辆将首次从生产线直接开到客户家中

    特斯拉创始人兼首席执行官埃隆马斯克宣布,Robotaxi公开试运营预计将于6月22日开始,首辆实现全自动驾驶的特斯拉汽车计划于6月28日从工厂生产线直接开到客户家中。 如果这一计划成功实施,将标志着特斯拉在自动驾驶技术领域取得重大突破。 马斯克一直对特斯拉的自动驾驶技术充满信心,并多次预测该技术将在未来几年内得到广泛应用。 此前,马斯克称,供个人使用的

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 慢前逆转革新之路:卫中科技用中国智慧解决世界难题

    本文探讨了慢性病已成为全球公共卫生重大挑战的现状。数据显示,慢性病导致的死亡占全球总死亡人数的70%,与现代人不健康的生活方式密切相关。我国超60%成年人超重或肥胖,30%患高血压,10%患糖尿病。卫中科技提出"新中式·健康生活方式"理念,整合传统中医养生智慧与现代科技,致力于通过"技术破壁、文化破圈、模式破局"三重路径,构建慢性病预防领域的中国标准。该企业计划培养百万健康生活方式教练,推动健康干预从医院前移至家庭,实现疾病早期预防和精准管理。卫中科技的愿景是让每个家庭都拥有一位健康守护者,助力人类健康寿命突破120岁,为全球健康事业贡献中国智慧和中国方案。

  • 法网见证:文远知行与雷诺集团深化合作,自动驾驶赛事服务标杆

    文远知行与雷诺集团再度合作,成为2025年法国网球公开赛唯一L4级自动驾驶接驳服务商。服务路线全长2.8公里,连接多个赛事场馆,新增夜间服务时段。这是双方继去年成功合作后的再次携手,文远小巴在复杂城市交通环境中展现出安全可靠的自动驾驶能力。作为全球首款前装量产自动驾驶小巴,该车型已获得包括法国在内的五个国家牌照,正在欧洲加速拓展商业化运营。此次合作进一步验证了L4自动驾驶技术在真实场景的成熟度,推动欧洲绿色低碳公交转型。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • 大脑协同小脑!小鹏G7行业首发智能驾驶辅助VLA-OL模型

    在今晚举办的发布会上,小鹏汽车首发智能驾驶辅助VLA-OL模型,首款落地车型即为全新G7。 该模型实现从小脑式反射”到 大脑 小脑”认知跃迁,小脑让汽车会开,大脑让汽车开好,如此整车具备主动思考、社会共识理解及自主学习能力。 以运动型大脑”和增强型小脑”,再加上不断自主强化学习的能力,未来将实现智能辅助驾驶能力比行业主流提升10-100倍,消除网络与地域