首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

2024-04-04 15:36 · 稿源：站长之家

划重点:
⭐️ UC 伯克利研究人员开源首个世界模型，具有百万级上下文处理能力。
⭐️ 该模型在多模态任务中表现出色，长视频理解效果优于 GPT-4V 和 Gemini Pro。
⭐️ LWM 系列模型在 GitHub 上受到广泛关注，开发者积极参与并获得高星数。

站长之家（ChinaZ.com）4月4日消息:来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为 LWM（LargeWorldModel）系列模型。这一模型采用了大量视频和书籍数据集，通过 RingAttention 技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1M token。

在实验中，LWM 系列模型展现出了优异的多模态性能，在文本图像生成、文本视频生成以及基于图像的对话等任务中表现出色。

研究人员指出，LWM 系列模型的多模态能力优于目前商业模型 GPT-4V 和 Gemini Pro，在处理超长视频理解方面尤为出色。更令人振奋的是，LWM 是一款开源模型，基于 Llama27B，受到了开发者们的热烈欢迎，仅在不到两周的时间里，就在 GitHub 上获得了超过6.2k 的 star。

该模型的训练过程分为两个阶段，首先是上下文扩展阶段，主要利用 Books3数据集将上下文长度从32K 扩展到1M。第二阶段是视觉语言培训，通过联合训练长视频和语言序列，提高模型在多模态任务中的表现。研究人员还对不同长度的文本和视频数据进行了逐步训练，并在模型设计和训练过程中做出了相应调整和优化。

这一开源的世界模型展示了强大的多模态处理能力，为相关领域的研究和开发提供了重要参考。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与，为人工智能领域的进步和创新带来了新的契机。

论文地址:https://arxiv.org/pdf/2402.08268.pdf

项目入口:https://github.com/LargeWorldModel/LWM

（举报）

相关推荐

关键词：

荐刚刚，OpenAI发布GPT-4.1，性能暴涨、100万上下文

今天凌晨1点，OpenAI进行了技术直播发布了最新模型——GPT-4.1。除了GPT-4.1之外，还有GPT4.1-Mini和GPT4.1-Nano两款模型，在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文，这对于金融分析、小说写作、教育等领域帮助巨大。由于GPT-4.1的发布，OpenAI宣布将会淘汰刚发布不久的GPT-4.5，其能力可见一斑。目前，如果想体验GPT-4.1而无法通过API身�

GPT-4.1 OpenAI 技术直播
GPT-4退役，但，OpenAI接下来准备了“很多好消息”！

OpenAI 的重大调整仍在继续。

OpenAI GPT-4 自然语言处理
重磅！OpenAI确定GPT-4退役日期：4月30日

快科技4月14日消息，据报道，OpenAI宣布，自2025年4月30日起，GPT-4将从ChatGPT中退役，由GPT-4o完全替代，不过GPT-4仍将在API中提供。OpenAI表示，在面对面的评估中，GPT-4o在写作、编码、STEM等方面持续超越GPT-4。最近的升级进一步改进了GPT-4o的指令跟踪、问题解决和对话流程，使其成为GPT-4的自然继承者。据悉，GPT-4于2023年3月发布，较上一代GPT-3.5有了显著提升。而GPT-4o是OpenAI为聊天

OpenAI GPT-4 GPT-4o
为编程而生？OpenAI 发布 GPT -4.1 系列模型

OpenAI 表示，GPT-4.1 是为开发者量身定制的……

openai gpt-4.1 gpt-4.1mini
开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一，国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期，上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列，相比上一代InternVL2. 5 模型，该模型展现出卓越的多模态感知和推理能力，同时进一步扩展了其工具使用、GUI代理、工业图像分析等

多模态理解 AI大模型 InternVL3
荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

【AI日报】汇总了近期AI领域重要动态：1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首，在指令遵循和推理能力上超越闭源模型；2)月之暗面推出Kimi长思考模型API，可解决复杂代码和数学问题；3)OpenAI发布GPT-4.1模型，性能提升显著；4)Google推出Gemini2.5Pro模型，提升开发者编码能力；5)联想发布"天禧超级智能体"，具备多模态感知能力；6)腾讯元宝上线"对话分

AI日报通义千问3 开源模型
荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱AI启用全新域名Z.ai 并开源32B/9B 系列 GLM 模型智谱技术团队近期宣布开源32B和9B系列的GLM模型，并推出全新交互体验平台Z.ai。这些模型遵循MIT许可协议，支持商业用途，提升了

人工智能开源模型 GLM模型
阿里开源通义新模型：指定首尾图片生成视频

快科技4月18日消息，据报道，阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面，智能生成720p高清过渡视频，为视频创作带来全新可能。该模型通过先进的深度学习算法，能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后，模型会智能分析画面中的视觉元素，包括物体形�

阿里巴巴通义万相视频生成技术
荐GPT-4.1偷偷开跑？神秘模型上线三天已被玩疯，网友发现大量OpenAI痕迹

上线仅三天的神秘模型，已经鲨疯了!大模型聚合平台OpenRouter新推出的OptimusAlpha，已经处理了772亿Token，平均每天超过200亿。并且这个数字还在上升，日Token处理已超过340亿，排名第二，并在Trending榜单上位列第一。加上奥特曼对QuasarAlpha的暗示，OptimusAlpha来自OpenAI的概率，整体看还是非常高的。

OpenRouter Optimus Alpha
微软上线GPT-image-1模型通过API向开发者开放使用

OpenAI于4月24日发布全新图像生成模型GPT-image-1，通过API向全球开发者开放。该模型支持生成高质量图像，具备多级定制功能，包括控制敏感度、生成效率、背景、输出格式等参数，并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算，低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型，认为其为开发者带来更大创意空间。

OpenAI 图像生成 GPT-image-1

热文

3 天
7天

首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

荐刚刚，OpenAI发布GPT-4.1，性能暴涨、100万上下文

GPT-4退役，但，OpenAI接下来准备了“很多好消息”！

重磅！OpenAI确定GPT-4退役日期：4月30日

为编程而生？OpenAI 发布 GPT -4.1 系列模型

开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

荐AI日报：智谱开源32B/9B系列GLM模型并启用Z.ai域名；OpenAI发布GPT-4.1系列模型；阿里魔搭上线MCP广场

阿里开源通义新模型：指定首尾图片生成视频

荐GPT-4.1偷偷开跑？神秘模型上线三天已被玩疯，网友发现大量OpenAI痕迹

微软上线GPT-image-1模型通过API向开发者开放使用

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

基于安卓16的三星 One UI 8 本月发布首个测试版本

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

三星推出新型微显示技术，加剧 AR 眼镜竞争

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

苹果高管称：10 年后，可能 iPhone 将不复存在！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

站长商机