首页 > 业界 > 关键词  > Genie最新资讯  > 正文

DeepMind推Genie模型,可用图像制作类似马里奥的游戏

2024-03-01 09:12 · 稿源:站长之家

**划重点:**

1. 🎮 Genie可以从图像中创建2D视频游戏,类似于流行的超级马里奥兄弟游戏。

2. 🌐 Genie是Generative Interactive Environments的缩写,通过在互联网视频上进行训练,能够从图像、视频甚至以前未见过的草图中创建可玩的场景。

3. 🤖 Google DeepMind认为Genie的生成模型对于处理各种AI任务的通用代理具有潜在影响,可能是通往AGI的一个垫脚石。

站长之家(ChinaZ.com)3月1日 消息:在Google DeepMind的最新研究中,他们推出了名为Genie的模型,该模型能够从图像中生成类似于超级马里奥兄弟游戏的2D视频游戏。Genie是Generative Interactive Environments的缩写,经过在互联网视频上的培训,它能够从图像、视频,甚至以前未见过的草图中创建可玩的游戏场景。

image.png

该模型不仅仅是一个有趣的AI模型,Google DeepMind认为它具有潜在的通用代理(Generalist Agents)影响,这是专为处理各种AI任务设计的AI系统。Genie的设计理念是通过学习从视频等媒体中提取的潜在动作,并将其转移到人工设计的环境中,从而实现对其他领域的应用,而无需额外的领域知识。

团队表示,Genie项目只是“刚刚触及未来可能性的表面”。该模型通过对其输入的20万小时的互联网视频进行训练,包括2D平台游戏(如超级马里奥)和机器人数据(RT-1)。尽管互联网视频通常没有标签,但它学到了细粒度的控制,包括可控制输入的哪些部分,还能推断在生成的环境中一致的潜在动作。

Genie的体积达到了110亿参数,Google DeepMind将其称为“基础世界模型” - 一个从世界运作中学习的系统。Genie能够从观看数千个互联网视频中学到动作,理解像跳跃这样的动作,并将其应用于类似游戏的环境中。与人类从视频中学习的方式相似,Genie也能理解人类绘制的草图,并将其转化为类似游戏的表现形式。

对于Genie模型是否将提供给公众,或者是否会在未来的Google产品中应用,目前尚无消息。但感兴趣的读者可以在Genie展示页面上查看示例生成。这一创新展示了深度学习在创造性领域的潜在应用,也许为实现通用人工智能迈出了一步。

Genie论文网址:https://arxiv.org/pdf/2402.15391.pdf

举报

  • 相关推荐
  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • DeepSeek更新至V3.1 Terminus版本:两大升级

    9月22日,深度求索宣布DeepSeek V3.1已更新至Terminus版本,官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上,针对用户反馈进行改进:优化语言一致性,缓解中英文混杂、异常字符等问题;提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定,各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • AI日报:阿里云开源通义DeepResearch;夸克推医师考试大模型

    本期AI日报聚焦多项前沿动态:阿里云开源轻量级AI代理DeepResearch,性能媲美OpenAI;夸克推出国内首个全阶段医师考试大模型测试集;微软Copilot将上线类ChatGPT记忆管理功能;迪士尼等巨头起诉MiniMax侵犯版权;OpenAI提升ChatGPT搜索准确性;Notion推出个性化AI助手;谷歌发布更小巧高效的时间序列预测模型TimesFM-2.5;Figma推出AI设计功能简化创作流程。整体展现AI技术在开源、医疗、�

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

今日大家都在搜的词: