UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当

2024-02-20 09:56 · 稿源：站长之家

站长之家（ChinaZ.com）2月20日消息:最近，谷歌的Gemini1.5和OpenAI的Sora模型引发热议，但这些模型是否真的能很好地理解世界?以Sora为例，虽然给人们带来了惊喜，但在模拟复杂物理原理方面存在一定局限性，如健身男子倒跑跑步机。随着大型模型的发展，固有的缺点也显现出来，模型在处理现实世界难以用语言描述的内容时表现困难，长程任务也难以处理。

因此，视频模型的出现在一定程度上弥补了这一问题，提供了语言和静态图像所缺少的时间信息，为大型语言模型（LLM）的发展带来新的可能性。然而，由于内存限制、计算复杂性和有限的数据集，从数百万个视频和语言序列的token中学习仍然具有挑战性。

项目地址:https://top.aibase.com/tool/large-world-models

为了解决这些挑战，来自UC伯克利的研究者推出了大世界模型（LWM），利用RingAttention技术对长序列进行可扩展训练，这是一个带有视频生成功能的多模态模型，非常强大，与Gemini1.5Pro的能力相当。这个模型支持100万上下文的文本检索，可以分析超过1小时的视频，并支持视频和图片生成。

该研究在长视频和语言序列上训练了一个具有极大上下文尺寸的transformers模型，为新的检索任务和长视频理解设立了新的标杆。

通过RingAttention、掩码序列打包等方法，研究团队成功训练了数百万长度的多模态序列，提供了处理超过100万token长文本文档和视频的完全开源模型。LWM模型不仅可以根据文本提示生成图像和视频，还能深入理解图片、回答关于图片的问题，表现出优越的长视频理解能力。

总的来说，LWM模型在长视频问题回答方面表现优于业界其他模型，包括谷歌的Gemini Pro和OpenAI的GPT-4。研究者通过多种策略克服了视觉-语言训练的挑战，为处理长视频与语言序列提供了新的思路，如损失加权和使用模型生成的问答数据。该研究的推出将为语言模型更好地理解物理世界打开新的可能性，为人工智能技术的发展带来新的契机。

（举报）

相关推荐

关键词：

智元机器人姚卯青：以世界模型驱动飞轮，解锁具身智能规模化应用

智元机器人合伙人在2025世界机器人大会上发表演讲，系统阐述了公司在具身智能领域的探索成果与未来方向。公司已发布多款机器人产品，建成规模化生产线与训练场，并在算法领域实现多项创新。为解决数据难题，智元开源了AgiBot World百万真机数据集，并推出具身智能基座模型GO-1，该模型在三大场景测试中表现优异。公司创新性地提出"本体-数据-模型-场景"全栈布局理念，通过飞轮迭代逻辑加速技术突破。智元还推出GE Bench评测工具，并计划下半年发布新一代机器人AgiBot G2。过去一年，智元已在柔性制造、物流分拣等多个场景取得突破性应用成果。

世界机器人大会具身智能智元机器人
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
AI模型库哪个好？2025年主流AI模型选型指南与API成本对比推荐

AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型，提供透明化成本与能力信息，帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛，使非技术背景决策者也能深度参与技术选型，加速创新迭代并降低试错成本。

AI模型库企业AI集成 AI驱动型应用
荐最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

在最近与科隆国际游戏展同期举办的Devcom开发者大会上，AI再次赚足了脸面。微软、腾讯、谷歌、Meta等国际巨头带来超过20场AI相关议题，“AI如何提升游戏美术生产效率”、“AI工具如何与传统工作流无缝集成”、“AI在动画生成、场景构建等具体环节的应用案例”成为开发者们探讨的重点内容。近年来，游戏美术对精细度的要求呈现指数级增长。随之而来的是几何级增长的

AI 游戏美术生产效率
主论坛前瞻｜「拥抱AI变革，点燃算网引擎」：ODCC邀您探索算网新世界

2025年第十二届开放数据中心大会（ODCC）将于9月9-11日在北京举行。大会聚焦AI变革与算力发展，围绕算力、网络、能源、制冷、运维等全链路协同展开讨论。华为、三星、博通等企业将分享最新实践，探讨液冷技术、智能运维等关键议题。主论坛将于9月10日举行，发布年度成果并解读技术趋势。大会旨在推动算力产业标准化发展，为AI时代提供系统性解决方案。

开放数据中心大会 ODCC2025 AI变革
荐腾讯加速造“世界”

“如果没有开源，没有去和社区交流，我们靠闭门造车是空想不出来的。”近日，在接受字母榜独家专访时，腾讯混元3D团队负责人郭春超这样说道。郭春超的感慨来自于在近期的开源社区中，国产模型“搅动”了整个大模型业界的开源生态， Hugging Face的模型热度榜单被中国企业连续“霸榜”。最多时，前10开源席位中有9个来自中国。在排名前几的选手中，除了 “Text Genera

开源大模型腾讯混元3D
AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

文章探讨了AI时代信息过载的困境：有价值的前沿动态、重磅模型发布和行业解读分散各处，筛选成本高、效率低下。AIbase资讯导航站应运而生，通过四大核心功能解决痛点：1)聚合主流信源，过滤低质噪音；2)结构化分类呈现大模型动态、行业应用等六大板块；3)提炼核心要点，拒绝标题党；4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达"，帮助用户节省70%信息搜集时间，将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

人工智能 AI资讯科技媒体
降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5，实现秒级高质量视频生成，支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升，覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手，降低使用门槛，用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用，加速行业落地。

AI视频生成 PixVerse V5
将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

AI项目规模化应用面临不可预测的运营成本挑战，尤其是大模型API调用费用难以精准预测，导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移，在项目可行性分析阶段引入AIbase等成本计算工具，实现成本可视化，支持技术选型和预算建模，从被动应对转向主动管理，提升AI应用的经济性和可持续竞争力。

数字化转型人工智能运营成本
AI大模型费用计算器：新手如何避开工具选择的三大坑

文章指出AI初学者常陷入三个陷阱：盲目选择昂贵工具、被华丽宣传迷惑、忽视隐藏成本。建议使用AIbase.cn等专业平台进行系统化评估，通过费用计算器对比主流模型成本，基于实际需求而非营销话术做决策。关键是要先对比分析再试用，找到真正契合业务需求的解决方案，避免资源浪费。

今日大家都在搜的词：

热文

3 天
7天

UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当

智元机器人姚卯青：以世界模型驱动飞轮，解锁具身智能规模化应用

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI模型库哪个好？2025年主流AI模型选型指南与API成本对比推荐

荐最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

主论坛前瞻｜「拥抱AI变革，点燃算网引擎」：ODCC邀您探索算网新世界

荐腾讯加速造“世界”

AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

降低创作门槛！爱诗科技新一代生成式大模型加速AI视频大众化

将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

AI大模型费用计算器：新手如何避开工具选择的三大坑

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小米汽车8月交付量超3万台全年交付量有望冲击42万

抖音升级AI内容标识功能上线两项核心功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

零跑汽车8月交付57066台增长超88%

苹果上架翻新版Apple Pencil Pro售价849元

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为三折叠屏手机Mate XTs非凡大师上架开启预约

站长商机

UC伯克利研究者推大世界模型（LWM） 与Gemini 1.5 Pro能力相当

今日大家都在搜的词：

热文

站长商机

UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当