Wayve推出GAIA-1 9B，通过生成合成视频训练自动驾驶

2023-10-07 10:33 · 稿源：站长之家

文章概要:
- Wayve是一家英国初创公司，于2023年6月发布GAIA-1，一款用于自动驾驶车辆训练数据的生成式人工智能模型。
- GAIA-1使用文本、图像、视频和行动数据创建各种交通情景的合成视频，填补了道路交通复杂性所产生的数据空白。
- 这一世界模型可以预测未来事件，帮助自动驾驶车辆提前规划行动，增加道路安全和效率。

站长之家（ChinaZ.com）10月7日消息:英国初创公司Wayve在2023年6月发布了GAIA-1（Generative Artificial Intelligence for Autonomy），这是一款为自动驾驶车辆培训数据而设计的生成式模型。GAIA-1的最新版本，GAIA-19B，已经取得了令人瞩目的进展。

GAIA-1的独特之处在于它的能力，它能够使用文本、图像、视频和行动数据来生成各种交通情景的合成视频。这一能力填补了自动驾驶车辆训练中的数据缺口。

试想一下，在雾中，有一个行人从卡车后面跳出来，同时一名摩托车手即将超越你，一名自行车手从前方靠近。这是一个真实的情景，但要捕捉到这个精确的场景，你需要开多少英里的车并进行拍摄呢?GAIA-1回答了这个问题，它可以生成各种交通情景的合成视频，用于自动驾驶车辆的培训。

与传统的生成式视频模型不同，Wayve表示，GAIA-1是一种生成式“世界模型”，它学会了理解和解读驾驶的最重要概念。它能够识别和分离不同的车辆及其特征、道路、建筑物或交通信号灯等概念。GAIA-1还学会了代表环境及其未来动态，为驾驶提供了结构化的环境理解，可用于做出明智的驾驶决策。

自GAIA-1首次发布以来，Wayve团队对其进行了优化，以高效生成高分辨率视频，并通过大规模培训提高了世界模型的质量。该模型现在拥有90亿个参数（相对于六月版本的10亿个参数），还能够精确控制视频中的车辆行为和场景特征。这使其成为培训和验证自动驾驶系统的强大工具。

GAIA-1的模型基于在2019年至2023年间在英国伦敦收集的4700小时专有驾驶数据。模型的架构包括每个输入模态（视频、文本和行动）的专用编码器、世界模型、自回归变换器和视频解码器，以及将预测的图像元素转换回像素空间的视频扩散模型。

值得注意的是，GAIA-1的世界建模任务与大型语言模型（LLMs）常用的方法非常相似，其中任务被简化为预测下一个标记。在GAIA-1中，这一方法应用于视频建模，而不是语言。这表明随着模型大小和培训数据集的增加，GAIA-1在视频生成方面的性能和效率将继续提高，类似于大型语言模型在其各自领域内观察到的缩放模式。开发人员表示，随着更多的数据和处理能力，仍然存在“显著的改进空间”。

此外，GAIA-1还可以预测过去的上下文视频图像的不同未来情景，包括行人、自行车手、摩托车手和对向交通的行为，从而使模型能够考虑与其他道路使用者的互动并对情况做出反应。GAIA-1还可以通过纯文本输入进行控制，例如，通过文本命令“天气是晴朗的”、“多雨的”、“有雾的”或“多雪的”来生成不同的驾驶情景。此外，它还可以使用文本命令，如“现在是白天，我们处于直射阳光下”、“天空是灰色的”、“现在是黄昏”和“现在是夜晚”，来创建不同的照明情景。

然而，Wayve也指出了GAIA-1的一些局限性。虽然自回归生成过程非常有效，但需要大量计算，因此生成长时间的视频会非常计算密集。此外，当前模型主要集中于预测单一摄像机输出，而自动驾驶需要来自所有周围视点的全面视图，这是关键问题之一。

未来的工作将扩展该模型的能力，以捕捉更广泛的视角，并优化其生成效率，使该技术更具适用性和效率。此外，Wayve还在开发Lingo-1，这是一种自动驾驶系统，将机器视觉与基于文本的逻辑相结合，以解释道路上的决策和情况。这种基于文本的逻辑可以增加车辆的安全感，使人工智能的决策不再像一个“黑盒子”。

GAIA-1项目网址:https://wayve.ai/thinking/scaling-gaia-1/

（举报）

相关推荐

关键词：

OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
2199元起华为两款鸿蒙5平板今天正式开售

华为两款搭载鸿蒙5系统的全新平板正式开售，分别为华为MatePad 11.5 S 2025与华为MatePad Air 12英寸2025，起售价分别为2199元与2799元。其中，华为MatePad 11.5 S 2025采用11.5英寸LCD屏幕，屏幕分辨率为2800*1840，支持144Hz刷新率，屏占比为87%。内置8800mAh电池，支持40W快充。华为MatePad Air 12英寸2025则采用一块12英寸大屏，分辨率和刷新率与华为MatePad 11.5 S 2025保持一致。内置10100mAh电池，支�

鸿蒙5系统华为MatePad 11.5
京东：外卖等新业务收入大增199% 成功达成初期目标

京东集团今天发布了2025年二季度财报，营收3567亿元人民币，同比增长22.4%，刷新近三年收入增速新纪录。而备受外界关注的包括京东外卖在内的新业务，收入同比大幅增长了199%，成功达成初期战略目标。京东外卖在本季度展现出惊人的发展速度，日订单量达2500万单。目前，全国已有350个城市的超150万家品质餐饮门店入驻。

京东财报京东外卖营收增长
苹果折叠iPhone渲染图再曝光：预计明年9月发布售价1999美元

摩根大通在最新发布的报告中透露了一则重磅消息:苹果公司计划于2026年9月正式推出其首款折叠屏iPhone，该设备将被纳入iPhone18系列。这一消息瞬间引发了科技界的广泛关注与热议。据报告，苹果为这款折叠屏iPhone定出了1999美元的高价，约合人民币14343元。尽管价格不菲，但摩根大通对其市场前景十分看好，认为该产品将为苹果创造高达650亿美元的市场机会，并且在中期有望�

折叠屏iPhone iPhone18系列苹果新品
首款鸿蒙AI智能手表！华为WATCH 5新款上市 2699元起

华为WATCH 5新款上市，包括46mm星河蓝、42mm极光绿两款，售价分别为2999元和2699元。一同上市的还有两款氟橡胶表带，静谧蓝和栖霞粉，售价均为199元。以上四款产品均将于8月22日上午10:08正式开售。华为WATCH 5于今年6月11日发布，搭载鸿蒙5系统，也是首款鸿蒙AI智能手表！

华为WATCH 5 鸿蒙5系统
出事司机担责！小米：辅助驾驶不是自动驾驶请大家正确理解使用辅助驾驶

宣布1000万Clips版本小米端到端辅助驾驶面向小米SU7系列推送后，官方也是给出了喊话。小米汽车呼吁，辅助驾驶现阶段不是自动驾驶，请大家正确理解和使用相关辅助驾驶功能，确保时刻注意路况信息，并随时准备控制车辆。” 相比于之前的300万Clips版本，1000 万 Clips 版本的小米端到端辅助驾驶功能对复杂路况的应对更从容、决策更贴近于真实老司机”的驾驶习惯，比如加�

小米辅助驾驶自动驾驶
从瑞幸×浪浪山到喜茶×Chiikawa，萌系联名如何破圈？

最近，社交平台再次被一波萌系联名刷屏了。瑞幸推出的《浪浪山小妖怪》主题杯迅速成为职场人士新宠，杯身上“诸邪退散”的字样精准击中打工人的共鸣点;喜茶与Chiikawa的联名产品首日发售，全国多家门店排起长龙，粉丝们纷纷在社交平台晒出集齐全套周边的照片…… 这些现象不禁让人好奇，为什么萌系联名总能一次次引爆市场?本期跟随「克劳锐」的视角一起看看吧~

萌系联名品牌营销社交平台
苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

今天凌晨，苹果发布了iOS 26开发者预览版Beta 7，虽然已经处于测试后期，但依然加入了新功能。首先是美版Apple Watch的血氧检测功能回归，这与上周的iOS 18.6.1正式版同步，为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。从2024年1月18日开始，因美国国际贸易委员会（ITC）认定苹果部分Apple Watch血氧传感器专利侵权，所有在美国销售的Apple Watch Series 9�

iOS 26 Apple
王宁掏出迷你版LABUBU

“这周就要发布Mini版LABUBU，以前可能大家是挂在包上，可能从下周开始，大家甚至可以挂在手机上，它的使用场景会更多，相信它会是一个超级受欢迎的爆款。” 8月20日，在泡泡玛特2025年中期业绩发布会上，泡泡玛特董事长兼CEO王宁化身“带货博主”，从胸前西装口袋中拿出了一个Mini版LABUBU介绍道。这款即将登场的 Mini 版 LABUBU 仅有掌心大小，延续了LABUBU标志性的搪胶毛�

泡泡玛特 LABUBU Mini版LABUBU
曝iPhone 17 Air搭载残血版A19 Pro：跟17和17 Pro不一样

博主定焦数码爆料称，iPhone 17 Air搭载的是A19 Pro芯片而非A19。不过iPhone 17 Air的A19 Pro只有5核GPU，Pro系列则拥有6核GPU，前者少了一个GPU核心。 GPU核心数量减少表明，iPhone 17 Air因采用超轻薄机身设计，其散热会受到限制，苹果不得不砍掉一个GPU核心。不过这一爆料与行业分析师郭明錤此前的报道相悖，郭明錤曾预测iPhone 17 Air将搭载标准版A19芯片，而非Pro版。另外，iPhone 17 Air采�

iPhone 17 Air

今日大家都在搜的词：

热文

3 天
7天

Wayve推出GAIA-1 9B，通过生成合成视频训练自动驾驶

OpenAI的开源模型现已在IBM watsonx.ai上提供

2199元起华为两款鸿蒙5平板今天正式开售

京东：外卖等新业务收入大增199% 成功达成初期目标

苹果折叠iPhone渲染图再曝光：预计明年9月发布售价1999美元

首款鸿蒙AI智能手表！华为WATCH 5新款上市 2699元起

出事司机担责！小米：辅助驾驶不是自动驾驶请大家正确理解使用辅助驾驶

从瑞幸×浪浪山到喜茶×Chiikawa，萌系联名如何破圈？

苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

王宁掏出迷你版LABUBU

曝iPhone 17 Air搭载残血版A19 Pro：跟17和17 Pro不一样

今日大家都在搜的词：

热文

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

华为nova 14系列宣布限时降价至高优惠500元

黑神话钟馗预告片上线1天播放破千万登顶B站热门视频榜

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

小米智能家庭屏Max27闺蜜机今日开售售价3999元

李国庆婚礼收到11万余元善款受助学生寄来祝福

vivo Vision探索版发布将于明日开放线下体验

REDMI Note 15标准版发布：售价999元起

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

站长商机