多模态模型再进化，已学会看图玩扑克、算“12点”

2024-06-04 14:59 · 稿源：站长之家

站长之家（ChinaZ.com）6月4日消息:在科技领域，多模态模型的决策能力一直是研究的热点。最近，UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架，成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下，通过强化学习微调，已经学会了看图玩扑克、算“12点”等任务，并且其表现超越了GPT-4v。

研究团队由多位重量级人物组成，包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun，UC伯克利的Sergry Levine教授，以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布，并且相关代码已在GitHub上开源。

RL4VLM的核心是一种新的算法框架，它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是，奖励信息直接来源于环境，不再依赖于人类反馈。这不仅提高了效率，也赋予了多模态模型自主决策的能力。

为了全面评估RL4VLM的效果，研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力，包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。

具体到任务，研究团队设计了数轴（Numberline）、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中，ALFWorld是微软等于2020年提出的开源具身智能任务集，而其他任务则是研究团队的原创设计。

实验结果令人鼓舞。经过强化学习微调的多模态模型，在决策问题上的表现不仅超过了商用模型GPT-4v，同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中，RL4VLM模型取得了最高的平均分，尤其在单物体拾取任务上表现突出。

RL4VLM的工作流程是这样的:首先，系统将任务的当前状态以图片和文字描述的形式输入多模态大模型，并要求模型输出一段思维链，然后以文字形式输出要执行的动作。动作信息输入环境后，获得奖励值，该奖励值将用于强化学习训练。

为了适应RL训练框架，研究人员对模型的输入和输出进行了调整。具体来说，将任务图像和任务描述的文本合并后，直接作为当前任务的状态输入。在获得模型的文字输出后，将其转化为与环境交互的动作指令。

消融实验结果表明，使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路，也为未来人工智能的发展开辟了新的可能性。

论文地址:https://arxiv.org/abs/2405.10292

项目地址:https://top.aibase.com/tool/rl4vlm

（举报）

相关推荐

关键词：

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
OceanBase发布首款AI数据库seekdb：三行代码构建AI应用实现百亿级多模数据混合搜索

今日，在2025 OceanBase年度发布会上，OceanBase发布并开源了其首款AI数据库OceanBase seekdb（简称seekdb）。开发者仅需三行代码，即可快速构建知识库、智能体等AI应用，轻松应对百亿级多模数据检索，真正实现开箱即用”的AI数据基座。该产品支持向量、全文、标量及空间地理数据的统一混合搜索，深度融合AI推理与数据处理，并兼容Hugging Face、LangChain等30余种主流AI框架。这一�

OceanBase AI数据库 seekdb
小米超级小爱AI大模型推出随心修图功能

小米宣布超级小爱AI大模型推出随心修图功能，用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式：在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求：超级小爱需v7.8.50及以上，相册编辑功能需v2.1及以上，相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级，支持全局多模态交互和自然语音搜索，提升使用体验。

小米超级小爱 AI大模型
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

本期AI日报聚焦多项技术突破：阿里千问APP公测，基于Qwen3模型对标ChatGPT；谷歌Veo 3.1支持三图融合生成8秒视频；小米推出"随心修图"功能与7B多模态模型Miloco；谷歌Flow集成Nano Banana模型实现智能抠图；多模态AI工具DeepEyesV2可执行代码与网络搜索；NotebookLM升级支持图像导入检索；JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温，产品迭代加速。

AI 阿里巴巴千问APP
荐AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异常致全球宕机；百度Q3 AI收入96亿元

谷歌发布Gemini 3大模型及Antigravity AI开发平台，支持参数灵活调整；Cloudflare因配置异常致全球服务中断6小时；微软测试AI文件连接器，允许Claude直接读取本地文件；百度Q3 AI收入96亿元，萝卜快跑订单激增；小米AI眼镜新增直播与语音控制功能；TikTok推出AI内容推荐调节选项；微软将Copilot全面集成至Office应用；谷歌推出实时生成交互界面的Generative UI技术；Manus发布Browser Operator，将浏览器升级为全功能AI代理。

AI Gemini 3
百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

2025年11月13日，百度发布“百度猎户座”AI引擎，全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力，基于多智能体架构统一连接信息、工具、服务与模型，融合搜索技术优势与全网MCP生态资源。即日起对外开放，支持企业快速接入打造专属AI应用。同时，文心助手上线个性化记忆功能，视频生成推出“参考生成”玩法，AI短剧创作平台免费提供超30万部IP资源及全流程工具。

百度猎户座 AI引擎搜索技术
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios

今日大家都在搜的词：

热文

3 天
7天

多模态模型再进化，已学会看图玩扑克、算“12点”

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

OceanBase发布首款AI数据库seekdb：三行代码构建AI应用实现百亿级多模数据混合搜索

小米超级小爱AI大模型推出随心修图功能

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

荐AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异常致全球宕机；百度Q3 AI收入96亿元

百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

小米超级小爱AI大模型推出随心修图功能

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

站长商机