首页 > 业界 > 关键词  > Wayve最新资讯  > 正文

Wayve推出GAIA-1 9B,通过生成合成视频训练自动驾驶

2023-10-07 10:33 · 稿源:站长之家

文章概要:

- Wayve是一家英国初创公司,于2023年6月发布GAIA-1,一款用于自动驾驶车辆训练数据的生成式人工智能模型。

- GAIA-1使用文本、图像、视频和行动数据创建各种交通情景的合成视频,填补了道路交通复杂性所产生的数据空白。

- 这一世界模型可以预测未来事件,帮助自动驾驶车辆提前规划行动,增加道路安全和效率。

站长之家(ChinaZ.com)10月7日 消息:英国初创公司Wayve在2023年6月发布了GAIA-1(Generative Artificial Intelligence for Autonomy),这是一款为自动驾驶车辆培训数据而设计的生成式模型。GAIA-1的最新版本,GAIA-19B,已经取得了令人瞩目的进展。

GAIA-1的独特之处在于它的能力,它能够使用文本、图像、视频和行动数据来生成各种交通情景的合成视频。这一能力填补了自动驾驶车辆训练中的数据缺口。

image.png

试想一下,在雾中,有一个行人从卡车后面跳出来,同时一名摩托车手即将超越你,一名自行车手从前方靠近。这是一个真实的情景,但要捕捉到这个精确的场景,你需要开多少英里的车并进行拍摄呢?GAIA-1回答了这个问题,它可以生成各种交通情景的合成视频,用于自动驾驶车辆的培训。

与传统的生成式视频模型不同,Wayve表示,GAIA-1是一种生成式“世界模型”,它学会了理解和解读驾驶的最重要概念。它能够识别和分离不同的车辆及其特征、道路、建筑物或交通信号灯等概念。GAIA-1还学会了代表环境及其未来动态,为驾驶提供了结构化的环境理解,可用于做出明智的驾驶决策。

自GAIA-1首次发布以来,Wayve团队对其进行了优化,以高效生成高分辨率视频,并通过大规模培训提高了世界模型的质量。该模型现在拥有90亿个参数(相对于六月版本的10亿个参数),还能够精确控制视频中的车辆行为和场景特征。这使其成为培训和验证自动驾驶系统的强大工具。

GAIA-1的模型基于在2019年至2023年间在英国伦敦收集的4700小时专有驾驶数据。模型的架构包括每个输入模态(视频、文本和行动)的专用编码器、世界模型、自回归变换器和视频解码器,以及将预测的图像元素转换回像素空间的视频扩散模型。

值得注意的是,GAIA-1的世界建模任务与大型语言模型(LLMs)常用的方法非常相似,其中任务被简化为预测下一个标记。在GAIA-1中,这一方法应用于视频建模,而不是语言。这表明随着模型大小和培训数据集的增加,GAIA-1在视频生成方面的性能和效率将继续提高,类似于大型语言模型在其各自领域内观察到的缩放模式。开发人员表示,随着更多的数据和处理能力,仍然存在“显著的改进空间”。

此外,GAIA-1还可以预测过去的上下文视频图像的不同未来情景,包括行人、自行车手、摩托车手和对向交通的行为,从而使模型能够考虑与其他道路使用者的互动并对情况做出反应。GAIA-1还可以通过纯文本输入进行控制,例如,通过文本命令“天气是晴朗的”、“多雨的”、“有雾的”或“多雪的”来生成不同的驾驶情景。此外,它还可以使用文本命令,如“现在是白天,我们处于直射阳光下”、“天空是灰色的”、“现在是黄昏”和“现在是夜晚”,来创建不同的照明情景。

然而,Wayve也指出了GAIA-1的一些局限性。虽然自回归生成过程非常有效,但需要大量计算,因此生成长时间的视频会非常计算密集。此外,当前模型主要集中于预测单一摄像机输出,而自动驾驶需要来自所有周围视点的全面视图,这是关键问题之一。

未来的工作将扩展该模型的能力,以捕捉更广泛的视角,并优化其生成效率,使该技术更具适用性和效率。此外,Wayve还在开发Lingo-1,这是一种自动驾驶系统,将机器视觉与基于文本的逻辑相结合,以解释道路上的决策和情况。这种基于文本的逻辑可以增加车辆的安全感,使人工智能的决策不再像一个“黑盒子”。

GAIA-1项目网址:https://wayve.ai/thinking/scaling-gaia-1/

举报

  • 相关推荐
  • 中国速度!GAIA榜单再被刷新,又一个中国公司登顶!

    5月22日,昆仑万维发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能一站式生成文档、PPT、表格、网页、播客和音视频内容。其核心优势在于深度研究能力,在GAIA榜单排名全球第一,超越OpenAI和Manus。产品包含5个专家智能体和1个通用智能体,专注办公学习场景,提供专业级内容生成。天工智能体支持在线编辑和导出多种格式文件,成本仅为OpenAI的40%。此外,其开源框架在GAIA评测中得分82.42,位居榜首。该产品标志着AI从单一功能向全场景生产力的跨越,现已开放全球注册使用。

  • 法网见证:文远知行与雷诺集团深化合作,自动驾驶赛事服务标杆

    文远知行与雷诺集团再度合作,成为2025年法国网球公开赛唯一L4级自动驾驶接驳服务商。服务路线全长2.8公里,连接多个赛事场馆,新增夜间服务时段。这是双方继去年成功合作后的再次携手,文远小巴在复杂城市交通环境中展现出安全可靠的自动驾驶能力。作为全球首款前装量产自动驾驶小巴,该车型已获得包括法国在内的五个国家牌照,正在欧洲加速拓展商业化运营。此次合作进一步验证了L4自动驾驶技术在真实场景的成熟度,推动欧洲绿色低碳公交转型。

  • 特斯拉自动驾驶新突破:车辆将首次从生产线直接开到客户家中

    特斯拉创始人兼首席执行官埃隆马斯克宣布,Robotaxi公开试运营预计将于6月22日开始,首辆实现全自动驾驶的特斯拉汽车计划于6月28日从工厂生产线直接开到客户家中。 如果这一计划成功实施,将标志着特斯拉在自动驾驶技术领域取得重大突破。 马斯克一直对特斯拉的自动驾驶技术充满信心,并多次预测该技术将在未来几年内得到广泛应用。 此前,马斯克称,供个人使用的

  • 1999元 小米推出精英驾驶高阶驾驶培训:前1万名免费

    小米汽车在15周年战略新品发布会上推出首款SUV车型YU7,正式进军SUV领域,并挑战特斯拉Model Y全球销冠地位。同时宣布为车主推出价值1999元的高阶驾驶培训课程,5月27日起前1万名用户可通过小米汽车APP免费报名。课程涵盖加速制动、绕桩练习、低附着路面驾驶等科目,通过理论与实践结合提升操控能力,并设置金卡纳赛道训练强化加减速、转向等综合驾驶感受。

  • 从游泳训练到水陆影音,鲸语训练耳机2代首创三模合一

    专业运动音频品牌鲸语推出第二代骨传导训练耳机,创新实现"三模一体"功能:训练模式支持16频分组教学;蓝牙模式可秒连手机播放流媒体;MP3模式内置32GB存储。产品通过IP69防水认证,续航提升50%,水下训练达9小时。新增晴海蓝、竞速黄、珊瑚橙三色,采用液态硅胶材质提升佩戴舒适度。与洲克联名款同步上市,延续专业游泳装备基因。6月18日起全渠道发售,限时尝鲜价469元。

  • 百度Apollo“星火计划”再扩圈:向北京工商大学捐赠自动驾驶车辆,未来将走进更多学校及科研机构

    6月15日,百度Apollo向北京工商大学计算机与人工智能学院捐赠自动驾驶车辆及全套配套设备,包括开放平台使用权和教学系统搭建支持。此次捐赠将助力该校在自动驾驶领域的科研教育、人才培养和学科竞赛。百度智能驾驶事业群组高管表示,Apollo平台为高校提供真实产业案例和多样化赛事,推动产学研协同发展。北京工商大学校领导指出,将依托Apollo平台开展自动驾驶课程建设、前沿技术研究和真实场景验证。百度自2017年起持续投入自动驾驶教育,今年3月启动"星火计划",已覆盖全国400多所院校,培养复合型人才。

  • 如何用DeepSeek一键自动生成Word文档

    DeepSeek推出AI自动排版Word文档功能,用户只需输入指令即可一键生成格式规范的文档,大幅提升办公效率。操作流程:1.在DeepSeek对话框输入文档要求并指定HTML格式输出;2.AI处理完成后点击运行按钮;3.页面会出现下载Word按钮,点击即可获取自动排版的文档。该工具同样支持生成PDF、Excel等格式,只需修改指令中的文件类型即可。免费工具地址:https://www.deepseek.com

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 支持AI生成、批量执行;贝锐向日葵发布自动化企业脚本功能

    文章介绍了企业远程IT运维中批量操作的重要性,指出传统人工方式效率低且易出错。贝锐向日葵推出的自动化企业脚本功能可批量下发执行运维指令,支持跨平台操作和AI生成脚本代码,大幅降低技术门槛。该功能内嵌"向日葵AI助手",用户可通过自然语言描述需求自动生成脚本,目前开放限时免费体验。

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本