首页 > 业界 > 关键词  > Genie最新资讯  > 正文

DeepMind推Genie模型,可用图像制作类似马里奥的游戏

2024-03-01 09:12 · 稿源:站长之家

**划重点:**

1. 🎮 Genie可以从图像中创建2D视频游戏,类似于流行的超级马里奥兄弟游戏。

2. 🌐 Genie是Generative Interactive Environments的缩写,通过在互联网视频上进行训练,能够从图像、视频甚至以前未见过的草图中创建可玩的场景。

3. 🤖 Google DeepMind认为Genie的生成模型对于处理各种AI任务的通用代理具有潜在影响,可能是通往AGI的一个垫脚石。

站长之家(ChinaZ.com)3月1日 消息:在Google DeepMind的最新研究中,他们推出了名为Genie的模型,该模型能够从图像中生成类似于超级马里奥兄弟游戏的2D视频游戏。Genie是Generative Interactive Environments的缩写,经过在互联网视频上的培训,它能够从图像、视频,甚至以前未见过的草图中创建可玩的游戏场景。

image.png

该模型不仅仅是一个有趣的AI模型,Google DeepMind认为它具有潜在的通用代理(Generalist Agents)影响,这是专为处理各种AI任务设计的AI系统。Genie的设计理念是通过学习从视频等媒体中提取的潜在动作,并将其转移到人工设计的环境中,从而实现对其他领域的应用,而无需额外的领域知识。

团队表示,Genie项目只是“刚刚触及未来可能性的表面”。该模型通过对其输入的20万小时的互联网视频进行训练,包括2D平台游戏(如超级马里奥)和机器人数据(RT-1)。尽管互联网视频通常没有标签,但它学到了细粒度的控制,包括可控制输入的哪些部分,还能推断在生成的环境中一致的潜在动作。

Genie的体积达到了110亿参数,Google DeepMind将其称为“基础世界模型” - 一个从世界运作中学习的系统。Genie能够从观看数千个互联网视频中学到动作,理解像跳跃这样的动作,并将其应用于类似游戏的环境中。与人类从视频中学习的方式相似,Genie也能理解人类绘制的草图,并将其转化为类似游戏的表现形式。

对于Genie模型是否将提供给公众,或者是否会在未来的Google产品中应用,目前尚无消息。但感兴趣的读者可以在Genie展示页面上查看示例生成。这一创新展示了深度学习在创造性领域的潜在应用,也许为实现通用人工智能迈出了一步。

Genie论文网址:https://arxiv.org/pdf/2402.15391.pdf

举报

  • 相关推荐
  • 谷歌DeepMind发布Genie 3世界模型:支持实时生成交互式3D环境

    据媒体报道,谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示,快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界,更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令,即可实时修改虚拟环境,显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能(AGI) 的�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • Google Gemini vs Deepseek:谁更适合你的业务场景?AI大模型选型终极对比指南

    企业在选择大模型时面临两难:国际大厂的Gemini技术先进,但国内DeepSeek性价比突出。AIbase平台通过真实场景测试数据指出:1)跨境电商客服场景中,Gemini多语言识别准确率提升12%,但需注意API延迟问题;2)金融研报分析场景下,DeepSeek支持128K长文本且成本仅为Gemini的1/3。决策关键:抛开参数迷雾,聚焦成本、响应速度、语言支持和场景匹配四大维度。AIbase提供可视化对比工具,3分钟生成专属选型报告,让技术决策不再玄学。

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • AI大模型选型决策指南:10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

    本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个,但选型面临三大难题:单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法:1)场景刚需筛选80%选项;2)验证核心性能;3)评估边际效益。以Gemini和DeepSeek为例,前者适合常规FAQ场景年省$16,000,后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系,将3小时选型会议压缩至18分钟,错误率下降40%。核心观点:选型应从参数争论转向场景验证,通过自动化工具为工程师节省时间,聚焦提示词优化而非参数对比。

  • 智能体迎来“DeepSeek时刻”,为何主角是纳米AI?

    大模型重塑了人工智能的产业格局,但却没有彻底颠覆人类的生产模式。 在这背后,并非其技术力量不足,而是当前的应用形态仍停留在“工具赋能”的初级阶段,大模型的潜力被束缚在碎片化场景中,未能转化为重构生产逻辑的核心动能。 正如360集团创始人、董事长周鸿祎所言,大模型的能力其实已经相当强大,甚至超越了我们中的许多人。只是其潜力尚未被挖掘。 而�

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • 谁在往“DeepSeek们”的回答里塞广告?

    AI正在重塑现代职场与当代生活。如果说在过去,人们遇到问题往往会首选“搜一下”,如今,则变为“问问AI”。或许是ChatGPT和DeepSeek,也可能是豆包和元宝…… 从数据来看,头豹研究院数据显示,全球AI搜索的用户量从2024年1月的3.1亿增长至2025年2月份的19.8亿,增长率达538.7%。 而当AI在日常工作和生活中越来越成为不可或缺的工具,变化正悄然发生。当DeepSeek的回答里频繁�

  • Soul以AI重构社交体验,打造有温度的“Gen AI 社交游乐园”

    Soul 作为新型社交平台,自成立以来便积极探索AI技术在社交领域的应用落地,持续优化AI社交体验,致力于重塑数字时代的连接方式,为社交产品注入新的可能性,打造一个突破传统社交边界的“Gen AI社交游乐园”。前不久,在第二十二届ChinaJoy(中国国际数码互动娱乐展览会)上,Soul App以“Soul树洞情绪疗愈酒吧”为展台主题亮相,重磅推出原创IP“莫比乌斯·第三弹”ChinaJoy

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

今日大家都在搜的词: