11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为LWM系列模型。这一模型采用了大量视频和书籍数据集,通过RingAttention技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1Mtoken。其优秀的性能表现和开源特性吸引了众多开发者的关注和参与,为人工智能领域的进步和创新带来了新的契机。
LeCun在「视觉世界模型」论文中详细介绍了世界模型在AI学习物理世界中的关键作用。世界模型相比自回归学习范式能更好地理解世界,掌握物理世界的关键。LeCun的「视觉世界模型」论文有望成为AI学习物理世界的关键里程碑。
【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。虽然视频生成模型面临着如虚假生成和泛化能力等挑战,但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台,并最终可能作为�
曾通过Gemini1.5Pro指出Sora生成视频不合理,质疑它担不起“世界模型”称号的Google,G字辈模型喜添新成员。GoogleDeepMind推出人工智能模型「Genie」,一个能够生成交互式视频游戏的AI。面对更逼真的可控视频生成,我们也许会把这看作是「威尔·史密斯吃意大利面」时刻。
欢迎来到【每日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
【新智元导读】真正的「基础世界模型」诞生了!谷歌团队发布110亿参数Genie「精灵」,从一张图片就能创造出可玩的虚拟世界,动作可控碾压Sora。AI已经杀到视频游戏领域了。她还在澳大利亚国立大学获得了工程学学士学位。
谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。Genie的出现将进一步推动虚拟世界的发展,为人类带来更多惊喜和可能性。
GenieAI是一个利用互联网视频训练的基础世界模型,可以从合成图像、照片甚至素描中生成无限多的可玩世界。它的使用范围广泛,可以用于从图像或文本生成整个互动世界,是训练未来通用AI代理的有利工具。欲了解更多详情并开始您的创造之旅,请访问GenieAI官方网站。
谷歌的Gemini1.5和OpenAI的Sora模型引发热议,但这些模型是否真的能很好地理解世界?以Sora为例,虽然给人们带来了惊喜,但在模拟复杂物理原理方面存在一定局限性,如健身男子倒跑跑步机。随着大型模型的发展,固有的缺点也显现出来,模型在处理现实世界难以用语言描述的内容时表现困难,长程任务也难以处理。该研究的推出将为语言模型更好地理解物理世界打开新的可能�
【新智元导读】短短几天,「世界模型」雏形相继诞生,AGI真的离我们不远了?Sora之后,LeCun首发AI视频预测架构V-JEPA,能够以人类的理解方式看世界。Sora一经面世,瞬间成为顶流,话题热度只增不减。它仍然是插值潜在空间的嵌入,到目前为止你还不能以这种方式构建「世界模型」。
大语言模型是否是世界模型?大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进完成更广泛的任务呢?最近来自香港科技大学、南洋理工大学与加利福尼亚大学洛杉矶分校的研究者们提供了新的思路:他们发现大语言模型如ChatGPT可以理解传感器信号进完成物理世界中的任务。该项目初步成果发表于ACMHotMobile2024。如想进一步了解渗透式
通用AGI,或许近在咫尺。OpenAI下一步「登月计划」,就是实现人类期待已久的超级人工智能到达这一步的前提是——解决超级AI对齐问题。所以研究人员为智能体提供互联网访问,或提供文本材料作为输入上下文,这些方法对之后的研究提供了帮助。
PikaLabs最新视频生成产品Pika1.0引起轰动,已开始向候补名单用户发放使用资格。Pika1.0以文生成视频为特色,提供3秒视频快速生成、背景修改等功能。项目网址:https://dreamoving.github.io/dreamoving/UCLA推出Chameleon框架,大模型表格数学推理准确率达98.78%由UCLA等机构推出的Chameleon框架通过多工具融合,包括LLMs、视觉模型、搜索引擎等,解决大型语言模型在实时信息获取和数学推理上的�
【新智元导读】Runway突然发布公告,宣称要开发通用世界模型,解决AI视频最大难题,未来要用AI模拟世界。最近AI视频赛道的Pika1.0大火,两位华人创始人团队半年做出的产品几乎碾压了Runway接近两年的发展成果。甚至认为这是实现AGI的唯一途径:LLM和其他神经网络系统可以很容易地描述一把椅子,但世界模特将能够「体验椅子」。
随着自动驾驶技术的迅猛发展,中科院自动化所的团队提出的Drive-WM模型成为自动驾驶领域的关键创新。这一模型通过多视图世界模型,利用生成式世界模型的强大生成能力,实现了多视图预测和规划,为自动驾驶系统的安全性提供了新的保障。这一技术突破有望推动自动驾驶领域迈向新的里程碑。
【新智元导读】传闻中OpenAI的Q*,已经引得AI大佬轮番下场。AI2研究科学家NathanLambert和英伟达高级科学家JimFan都激动的写下长文,猜测Q*和思维树、过程奖励模型、AlphaGo有关。是时候解决最后一章了深度学习专家SebastianRaschka对此表示——如果你出于任何原因,不得不在这个周末学习Q-learning,并且碰巧在你的书架上有一本「MachineLearningwithPyTorchandScikit-Learn」,那么,现在是时候�
【新智元导读】MIT等学者的「世界模型」第二弹来了!这次,他们证明了LLM能够分清真话和假话通过「脑神经手术」,人类甚至还能给LLM打上思想钢印,改变它的信念。大语言模型是世界模型,又添新证据!前不久,MIT和东北大学的两位学者发现,在大语言模型内部有一个世界模型,能够理解空间和时间。下一步LLM还会给我们带来何种惊喜,实在令人期待。
【新智元导读】人类距离AGI还有多远?也许大语言模型不是最终答案,一个理解世界的模型才是未来的方向。在人类的认知之中,似乎早已习惯将通用人工智能设定为人工智能的终极形态和发展的最终目标。尽管AGI的出现将减弱我们对自身独一无二的价值笃定,以及存在的重要性,但通过不断地进步和对认知边界的拓展,我们将更加清楚地认识到人类在宇宙中的地位,以及人类�
【新智元导读】LeCun的世界模型终于来了,可谓是众望所归。既然大模型已经学会了理解世界、像人一样推理,是不是AGI也不远了?长久以来,LeCun理想中的AI,一直是通往人类水平的AI,为此他提出了「世界模型」的构想。我的大脑只能看懂论文的10%,但如果I-JEPA真的能创建图3中的目标图像,那就太神奇了,最重要的是:它和AI生成的MMORPG是相关的!这个项目即将开源,网友也对Met
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/PR重大更新!Sora加入Adobe全家桶视频剪辑加入AI魔法AdobePremierePro近期推出了一次爆炸级更新,引入了AI工具Firefly,极大简化了视频编辑流程,提升了编辑效率。3、⭐AI助手还支持Word�
ArchetypeAI推出的Newton是一个革命性的人工智能平台,专为理解和推理物理世界设计。与传统的文本和图像分析AI模型不同,Newton结合了实时传感器数据和自然语言处理技术,使用户能够对周围环境提出开放式问题,并据此做出明智的决策。Newton支持与各种传感器结合使用,支持实时或预录数据流。
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
AI21发布了世界首个Mamba的生产级模型:Jamba。这个模型采用了开创性的SSM-Transformer架构,具有52B参数,其中12B在生成时处于活动状态。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。
今晚魅族发布新旗舰手魅族21Pro。魅族21PRO的O”,是智能手机时代的句号,也是一个新时代的开始。魅族将从三个方面展开AllinAI的战略,魅族将打造全新的AIDevice,通过产品形态AI原生设计、硬件算力AI全局调用等,为用户带来更加智能、便捷、创新的AI产品体验。
【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火,能够每秒输出近500个token。如此神速的响应,背后全凭自研的LPU。去年11月,当马斯克的同名AI模型Grok开始受到关注时,Groq的开发团队发表了一篇博客,幽默地请马斯克另选一个名字:不过,马斯克并未对两个模型名称的相似之处作出回应。
当全球还沉迷在如何用文本生成文本,以及文本生成图片的时候,OpenAI就这么掏出来了一个视频生成模型Sora。有关Sora的具体介绍和效果展示可以看我们昨天的文章《OpenAISora问世,通往AGI的又一个ChatGPT时刻!GPT4可能也要被干掉了》。OpenAI显然在把Sora描述成它一直坚持的Scalinglaw的又一次胜利——没有多么纯粹原创的技术,很多技术成分早已存在,但它却比所有人都更笃定的走了
深度学习领域泰斗LeCun在WGS峰会上怒斥Sora模型不能真正理解物理世界,引起广泛关注。仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界,与基于世界模型的因果预测有本质区别。V-JEPA的发布不仅是对Sora的回击,更展示了Meta公司在AI领域的先进技术,为实现具身AI技术和未来增强现实眼镜提供了有力支持。
领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。模型名为YiVisionLanguage,现已正式面向全球开源。GPT-4V在该测试集上的准确率为43.7%,Yi-VL-34B以36.5%的准确率紧随其后,领先于当前最前沿的开源多模态模型。
【新智元导读】谷歌全新视频生成模型VideoPoet再次引领世界!十秒超长视频生成效果碾压Gen-2可进行音频生成,风格转化。AI视频生成,或许就是2024年下一个最前沿的领域。对于未来的研究方向,谷歌研究人员表示,VideoPoet框架将会实现「any-to-any」的生成,比如扩展文本到音频、音频到视频,以及视频字幕等等。
当金融业与生成式AI相遇,两者会碰撞出什么样的火花?作为数据密集型产业的金融业,也是最快感受到AI所带来的便利的行业。无论是营销、投研还是风控,基于大数据建立的模型所提供的算法具有更精准、更快捷的优势,度小满深耕金融科技行业,在 2023 百度世界大会上举办“金融大模型前沿发展论坛”。10 月 17 日,以“生成未来”为主题的百度世界 2023 在北京召开,集中