UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当

2024-02-20 09:56 · 稿源：站长之家

站长之家（ChinaZ.com）2月20日消息:最近，谷歌的Gemini1.5和OpenAI的Sora模型引发热议，但这些模型是否真的能很好地理解世界?以Sora为例，虽然给人们带来了惊喜，但在模拟复杂物理原理方面存在一定局限性，如健身男子倒跑跑步机。随着大型模型的发展，固有的缺点也显现出来，模型在处理现实世界难以用语言描述的内容时表现困难，长程任务也难以处理。

因此，视频模型的出现在一定程度上弥补了这一问题，提供了语言和静态图像所缺少的时间信息，为大型语言模型（LLM）的发展带来新的可能性。然而，由于内存限制、计算复杂性和有限的数据集，从数百万个视频和语言序列的token中学习仍然具有挑战性。

项目地址:https://top.aibase.com/tool/large-world-models

为了解决这些挑战，来自UC伯克利的研究者推出了大世界模型（LWM），利用RingAttention技术对长序列进行可扩展训练，这是一个带有视频生成功能的多模态模型，非常强大，与Gemini1.5Pro的能力相当。这个模型支持100万上下文的文本检索，可以分析超过1小时的视频，并支持视频和图片生成。

该研究在长视频和语言序列上训练了一个具有极大上下文尺寸的transformers模型，为新的检索任务和长视频理解设立了新的标杆。

通过RingAttention、掩码序列打包等方法，研究团队成功训练了数百万长度的多模态序列，提供了处理超过100万token长文本文档和视频的完全开源模型。LWM模型不仅可以根据文本提示生成图像和视频，还能深入理解图片、回答关于图片的问题，表现出优越的长视频理解能力。

总的来说，LWM模型在长视频问题回答方面表现优于业界其他模型，包括谷歌的Gemini Pro和OpenAI的GPT-4。研究者通过多种策略克服了视觉-语言训练的挑战，为处理长视频与语言序列提供了新的思路，如损失加权和使用模型生成的问答数据。该研究的推出将为语言模型更好地理解物理世界打开新的可能性，为人工智能技术的发展带来新的契机。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Gemini 1.5 Pro API怎么申请注册使用？Gemini 1.5 Pro AI模型官网地址入口

Gemini1.5Pro是Google开发者平台推出的下一代AI模型。它支持语音理解、系统指令、JSON输出等新功能，并推出了新一代文本嵌入模型Gecko，性能大幅提升。要了解更多关于Gemini1.5Pro的信息，并开始体验这一先进的AI模型，请访问Gemini1.5Pro官网。

Gemini1.5Pro
荐谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

4月10日凌晨，谷歌在官网正式发布了Gemini1.5Pro，现在可在180多个国家/地区使用。除了能生成创意文本、代码之外，Gemini1.5Pro最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结，并且支持100万tokens上下文。Gemini1.5Pro已经全面开放使用了，有兴趣的小伙伴赶紧去试试吧。

Gemini1.5Pro Google AI
谷歌宣布Gemini 1.5 Pro开放API 新增多项功能

Google宣布开放其AI模型Gemini1.5Pro的API，这一版本在原有基础上进行了大幅度的功能扩展，现已在180多个国家提供。Gemini1.5Pro引入了对原生音频的理解能力，以及文件API和系统指令等新功能。这个新模型在MTEB基准测试中取得了更强的检索性能，超过了具有可比维度的所有现有模型。

Gemini1.5Pro AI头条
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
Gemini 即将开始收费开发者“白嫖”的好日子到头了

开发者白嫖Gemini的好日子结束了!近日，有开发者称收到了GeminiAPI团队的邮件，邮件通知称，Google将于2024年5月2日起更新GeminiAPI的附加服务条款，并开始对通过云计费账户进行的API请求收费。这项变更主要影响使用GoogleAIforDevelopers提供的GeminiAPI的用户不影响VertexAIGeminiAPI的用户。Google对用户选择使用GeminiAPI和GoogleAIStudio表示感谢，并期待继续为用户提供优质的服务。

Gemini AI头条
荐AI日报：GPT-4-Turbo正式版自带读图能力；Gemini1.5Pro开放API；SD3将于4月中旬发布；抖音宫崎骏AI特效爆火

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

GPT4
首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为LWM系列模型。这一模型采用了大量视频和书籍数据集，通过RingAttention技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1Mtoken。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与，为人工智能领域的进步和创新带来了新的契机。

LWM GPT-4 AI头条
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4

今日大家都在搜的词：

热文

3 天
7天

UC伯克利研究者推大世界模型（LWM） 与Gemini 1.5 Pro能力相当

今日大家都在搜的词：

热文

站长商机

UC伯克利研究者推大世界模型（LWM）与Gemini 1.5 Pro能力相当