多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

2024-06-04 14:47 · 稿源：量子位公众号

只用强化学习来微调，无需人类反馈，就能让多模态大模型学会做决策!这种方法得到的模型，已经学会了看图玩扑克、算“12点”等任务，表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法，研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCu

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

OpenAI推出突破性的o3推理模型，首次实现图像直接融入推理过程，在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级，上下文窗口从12K扩展至23K，幻觉率降低45%-50%。行业呈现开源趋势，DeepSeek开源策略促使多家企业跟进，OpenAI也考虑开源。微美全息加速布局多模态大模型，计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进，开源技术显著降低训练门槛，提升泛化能力，为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇，在大模型驱动的新时代找准定位。

OpenAI o3模型多模态推理
性能超OpenAI、Gemini！月之暗面发布首个自主强化学习Agent

月之暗面（Moonshot AI）正式推出其首款Agent产品Kimi-Researcher（深度研究），并已启动小范围灰度测试。该产品基于端到端自主强化学习（end-to-end agentic RL）技术打造，在HLE测试中表现优异，性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research，并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手，能够独立规划任务流程并交付完整结果。与其他Agent不�

月之暗面 Kimi-Researcher 智能研究助手
荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

本文介绍了AI领域最新动态：1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用；2)研究显示ChatGPT能提升K12学生成绩近87%；3)谷歌视频生成工具Veo3扩展至更多地区；4)谷歌发布三款Gemma模型变体，覆盖医疗、手语翻译和海豚语言研究；5)VideoTutor实现一句话生成定制教学视频；6)字节跳动开源多模态模型BAGEL；7)Rork支持无代码开发iOS/Android应用；8)AingDesk降低AI助手开发门槛；9)Claude4登陆亚马逊Bedrock平台；10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能移动办公 AI应用
算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

6月21日，东信云与华为云在HDC2025大会上签署合作协议，双方将基于昇腾AI云服务深化合作，重点布局多模态大模型应用与数字人技术。合作内容包括：1）构建智能营销系统，整合文本、图像、视频等多元数据，提升市场分析和消费者行为预测能力；2）通过大模型实现营销内容自动化生成，包括新闻稿、社交媒体帖子和广告文案；3）优化大模型架构，提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人，显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统，推动营销行业智能化升级。

华为云东信云科技 AI与大数据
“人工智能强化学习可持续发展计划”发布，“教育普惠+标准共建”助力全球人工智能体系构建

6月11日，第二届"一带一路"科技交流大会人工智能赋能可持续发展论坛在成都举行。腾讯联合多家机构发起"人工智能强化学习可持续发展计划"，包含AI教育普惠和强化学习标准共建两大板块。该计划将面向全球高校开放《人工智能通识课》和《人工智能强化学习专业课》教学资源，助力构建高质量AI教学体系。同时，腾讯开悟人工智能全球公开赛颁奖典礼作为"学赛研产"联动的重要环节，吸引了19个国家和地区的近400所高校队伍参赛。2025年赛事将首次联合全国高校计算机能力挑战赛，围绕AI前沿产业真实场景设置赛题。腾讯还通过"青云计划"为全球顶尖AI人才提供就业机会，推动人才与产业高质量发展。北京大学等机构牵头制定了强化学习系统系列技术标准，填补了领域内标准空白。

一带一路人工智能可持续发展
难哭了的高考数学题，4家国产大模型表现如何？

2025年高考数学考试引发热议，多家AI大模型参与测试。腾讯元宝和豆包表现最优，分别获得145分和140分（满分150分），仅错1-2道题。文心一言和QWen3稍逊，得分在120分左右。测试显示，AI在选择题和基础解答题表现良好，但在涉及图像理解、向量分析等复杂题目时仍存在困难。特别是一道包含向量图的"杀手题"让所有AI失分。专家指出，国产大模型数学能力已有显著提升�

高考数学语文
慧科讯业AI赋能数据标签化，破局多模态数据治理难题

文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础，能帮助企业实现精准营销和智能决策。然而，多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值，并分析了当前面临的挑战：包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式，结合行业领先的数据源、NLP技术和垂直知识图谱，为企业提供高效的数据标注解决方案，显著提升数据处理效率。未来，随着AI技术发展，知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

数据标签化数字化转型人工智能
破局多模态数据治理难点，数据标注重构企业营销新基建

文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括：1）AI数据标注已成为企业数字化转型的核心基础设施，92.9%数据为非结构化形态；2）营销领域多模态数据融合正在重塑商业决策模式；3）慧科讯业等企业通过TDaaS服务帮助客户构建数据资产；4）数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类；5）未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调，高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

Scale AI 数据标注行业
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

6月6日，浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品，它搭载行业首创AI多模态万物原生跟拍技术，支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统，折叠后体积小巧便携。配备22英寸触控彩屏，支持5米手势控制和隔空补光功能。售价999元起，同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年，产�

hohem 浩瀚V3 Ultra

热文

3 天
7天

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

性能超OpenAI、Gemini！月之暗面发布首个自主强化学习Agent

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

“人工智能强化学习可持续发展计划”发布，“教育普惠+标准共建”助力全球人工智能体系构建

难哭了的高考数学题，4家国产大模型表现如何？

慧科讯业AI赋能数据标签化，破局多模态数据治理难题

破局多模态数据治理难点，数据标注重构企业营销新基建

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

热文

2025新财富500创富榜发布：张一鸣问鼎首富梁文锋进前十

小米MIX Flip 2外观公布：配备骁龙8至尊版、5165mAh电池

中消协发倡议抵制极端吃播：平台应严格识别、及时下架

苹果官网首次支持国补目前仅限北京收货地址及上海线下购买

小米预告AI眼镜雷军：自带小爱同学啥都能直接问

雷军分享小米端到端辅助驾驶进展：YU7全系搭载 SU7下月升级

雷军称YU7定价合理：希望大家猜测YU7价格要讲科学

罗永浩回应为何总能融到钱并回击谩骂