首页 > 业界 > 关键词  > SIMA最新资讯  > 正文

谷歌推出通用AI代理SIMA:3D游戏世界的全能AI玩家

2024-03-22 08:47 · 稿源:站长之家

划重点:

🤖 无需源代码或API,SIMA通过文本和图像提示执行操作

🎮 与多个游戏工作室合作,SIMA在多款3D游戏中展现卓越性能

🔍 由多种大模型组成的SIMA,模仿人类感知、思考、规划和执行

正文:

近日,谷歌DeepMind的研究团队宣布推出一款面向3D虚拟环境的通用AI代理——SIMA。这一创新成果标志着AI技术在游戏领域的应用迈出了重要一步。SIMA的独特之处在于,它能够无需游戏的源代码或定制API,仅依赖于用户提供的图像和简单文本指令,就能像人类玩家一样在游戏世界中自由行动。

image.png

SIMA的研发过程中,DeepMind与八家游戏工作室紧密合作,将其在《无人深空》、《模拟山羊3》、《Teardown》、《挖矿模拟器》等多款知名3D游戏中进行了广泛测试。测试结果显示,SIMA能够执行超过600种基本操作,包括挖矿、驾驶飞船、制作装备等,且每项操作的完成时间平均不超过10秒。

SIMA的架构设计灵感来源于人类的身体构造,由多种大模型组合而成。其中,视觉感知模型相当于AI的“眼睛”,负责处理图像观察并提取关键信息;大语言模型则是“大脑”,解析和理解自然语言指令;建模规划模型扮演“思维”的角色,通过强化学习规划最佳行动策略;最后,控制和执行模型作为“四肢”,将动作序列转化为实际的游戏控制指令。

image.png

在数据收集和预处理方面,SIMA采用了先进的技术手段。研究人员从商业游戏中收集了大量数据,并通过数据清洗、转换和标准化等步骤,确保了数据的质量和一致性。这些工作为SIMA的学习和执行提供了坚实的基础。

谷歌DeepMind的研究人员表示,他们将继续迭代和提升SIMA的通用代理能力,期望未来SIMA能在现实生活中为用户提供更多帮助。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

举报

  • 相关推荐
  • 日销破千元!AI生成的3D梗图挂件,被我们卖爆了

    先说结论:我们花15天做的AI3D挂件,在线下卖爆了,单日营收破千元!故事的开始,是因为我们发现把AI3D打印手办做成一门小生意的可行性越来越高,这也激发了我们的“搞钱基因”。再加上前不久新榜在上海举办了「新榜内容节」,一拍即合,我们于是做了一批模型去大会现场摆摊试水!最后结果还不错,单日最高收入突破1000元,是我们“创业史”上的一个高光表现。欢迎大家

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 听脑 AI:重新定义语音处理效率的全能助手

    听脑AI是一款专注于语音/视频转文本的智能助手,具备三大核心功能:1)实时语音转写,支持会议、课堂等多场景录音转文字,自动区分发言人;2)音视频解析,可提取本地文件或平台链接内容生成可编辑文档;3)AI问答辅助,能基于语音内容生成摘要、PPT大纲等二次创作。其优势在于毫秒级响应、125种语言互译、智能降噪,适用于商务会议、教育学习、内容创作等场景,显著提升工作效率。支持多端同步与加密存储,提供20分钟免费试用体验。

  • 能理解海豚声音!谷歌开发AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • AI日报:百度文心4.5 Turbo将于4月25日发布;谷歌推新智能体开放协议A2A;视频号整治不当使用AI工具直播行为

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、百度官宣:文心大模型4.5Turbo将于4月25日发布百度宣布将在4月25日的Create大会上发布文心大模型4.5Turbo,尽管具体细节尚未披露,但业界对此充满期待。虽然试用期间无需绑定信用卡,但实际使用需购买托管计划。

  • UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 麦德通重磅推出AI外观检索」工具!

    在企业全球化布局进程中,除持续强化产品创新研发外,更需应对外观专利等知识产权布局及侵权风险的挑战,为了助力企业更好的防范风险,麦德通继「AI商标起名」工具后再次领先行业正式推出行业首创「AI外观检索」工具!基于全球171个受理局近2亿外观数据库和前沿AI智能技术,为品牌安全构筑有力保障!我们将持续引领行业变革,成为企业应对国际知识产权风险的的强�

  • ​上海毅速推出第三代模具3D打印专机E3系列,引领模具制造技术革新

    导读:近年来,金属3D打印技术在模具制造领域得到了广泛的应用,模具行业正在迎来一场前所未有的技术变革,随着应用的逐渐深入,模具专用的金属3D打印机应运而生。2025 年 4 月 15 日,上海毅速激光科技有限公司(以下简称“毅速”)正式发布了其第三代模具3D打印专机系列——E3- 420 和E3-520。这一新品的推出,标志着模具制造行业向增材制造迈出了重要一步。毅速E3- 420 �

  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • 开启内测!360纳米AI推出“MCP万能工具箱”

    4月23日,360旗下纳米AI正式发布"MCP万能工具箱",该工具基于MCP协议开发,已接入超110款工具,覆盖办公、学术、生活服务、金融等多场景。产品负责人梁志辉介绍,MCP协议类似USB-C接口,为AI调用外部工具提供标准化连接方式。目前该工具已开启内测,首批受邀用户包括AI博主和媒体人士。实测显示,该工具能快速生成专业分析报告,效率远超人工。用户还可创建专属智能体,如医疗、金融等领域的专业助手。360表示,工具对AI应用意义重大,将推动AI从聊天机器人进化为真正的"数字员工"。