首页 > 业界 > 关键词  > 多模态模型最新资讯  > 正文

多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

2024-06-04 14:47 · 稿源: 量子位公众号

只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCu

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 大家在看
  • 松鼠Ai引领教育科技新纪元,发布全新多模态智适应教育大模型

    在数字化浪潮的推动下,教育领域正经历着前所未有的变革。上海松鼠云上人工智能技术有限公司于上海盛大召开全新多模态智适应教育大模型发布会,再次引发了业界的广泛关注。我们有理由相信松鼠Ai将继续引领教育科技的新潮流和新方向。

  • 中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑

    没等到GPT-4o,商汤先把《Her》给发布出来了!就在刚刚,商汤直接在现场来了个炸裂的LiveShow,话不多说,直接看效果:不仅声音非常拟人还是实时、随时可以打断的那种!它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得。就连手绘的粗糙的简笔画,AI也能俏皮地跟人类做互动:一波LiveShow秀下来,引得观众掌声连连、“哇”声一片。思路已然清晰,技术不断进步,属于A

  • 马上消金引入防伪大模型,打造多模态生物核验与防伪平台

    全球知名权威科技刊物《麻省理工科技评论》最新发布报告显示,数字经济时代,以“Deepfake”为代表的深度换脸技术更加智能化和高度真实化。深度伪造技术被非法用于经济、政治、社会等领域,形成严重危害,深度伪造检测面临更大挑战。马上消费已将防伪大模型引入日常风控反欺诈管理流程中,呈现迭代周期短、拦截性能强、可解释性强等特性,大幅提升用户体验,实现了人机协同的金融防伪新应用模式。

  • AI日报:百度文心4.0免费开放;AI lab开源超强多模态大模型;对标GPT-4o!商汤发布日日新5o

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、百度文心智能体平台免费开放文心4.0版本百度文心智能体平台最新推出的文心大模型4.0版本免费开放给公众使用,极大地扩展了平台的功能和应用范围。这一投资有望降低电影�

  • 左脚踩右脚上天!OpenAI全新模型GPT-4训练GPT-4

    OpenAI公布了一个基于GPT-4训练的模型CriticGPT,主要用于捕捉ChatGPT代码输出中的错误。通过这一模型,人类训练者可以利用GPT-4查找并改进GPT-4自身的不足,OpenAI的实验显示,在CriticGPT的辅助下,训练师发现错误的能力提升了60%。CriticGPT的发布也引发了热烈讨论,有网友用左脚踩右脚上天”来形容这一自我改进的过程。

  • 岩芯数智展示机器人多模态能力

    在2024世界人工智能大会上,上海岩芯数智携Yan1.2多模态大模型亮相,不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”,它能够基于Yan1.2的语音和视觉处理能力,实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智,你现在看到了什么”或手捧书籍邀请“小智”一同看书时,它能够基于多模态能力进行学习和创作,精确描述环境和人物特征、学习书籍信息。

  • IBM凭借Granite,被Forrester评为语言AI基础模型的“强劲表现者”

    近日,IBM凭借其旗舰Granite系列模型,在2024年第二季度的《ForresterWave:语言AI基础模型》报告中,被评为“强劲表现者”。随着企业从生成式AI的试验阶段转向生产阶段,他们正在寻找基础模型的最佳选择,他们希望这些模型能够提供可信、性能优越且成本效益高的生成式AI。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是IBM业务发展的基石。

  • 科大讯飞发布星火大模型4.0:整体超越GPT-4 Turbo!

    科大讯飞今日在北京举办了一场主题为懂你的AI助手”的发布会,正式推出了全新的讯飞星火大模型V4.0,并展示了其在医疗、教育、商业等多个领域的人工智能应用。星火大模型V4.0的训练依托于国内首个国产万卡算力集群飞星一号”,实现了七大核心能力的全面升级。在星火大模型的加持下,讯飞智能硬件的销量同比增长了70%,月均使用次数超过了4000万。

  • RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

    【新智元导读】来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架,简化了原本需要多个模型的复杂的RAG流水线,用微调的方法交给同一个LLM完成,结果同时实现了模型在RAG任务上的性能提升。在需要大量事实知识的文本生成任务中,RAG成为了常用的LLM部署技巧。值得一提的是,本篇论文对标的基准方法ChatQA也是WeiPing之前的研究。

  • 钦州移动获评市“八五”普法中期表现突出单位

    自“八五普法”开展以来,中国移动通信集团广西有限公司钦州分公司积极贯彻落实党中央关于全面依法治国的战略部署,以“和法同行尊享规则”为主线,聚焦提高法治政治站位、增强法治建设实效、提高依法治企能力,充分发挥法治“促治、助兴、护安”作用,并注重发挥信息化技术优势,助力地方信息化法治建设,荣获钦州市“八五普法”中期表现突出单位。“以法促治”,持续推进公司治理体系治理能力现代化。2023年4月,钦州移动联合市钦南区人民法院对一起涉嫌合同诈骗、伪造印章罪案进行开庭公开审理,并通过中国移动和商务直播方式直播庭审现场;2023年至今,钦州移动联合本地公检法司法局等单位开展禁毒反诈宣传活动、网络安全周宣传活动、普法进企业、进校园、进乡镇等活动超140余场,其中联合钦州市公安局共同打造广西首个反诈主题菜市场获多层级媒体刊发……一直以来,钦州移动坚持擦亮“党建法治”品牌特色,主动“走出去”与公检法等重点领域监管部门建立工作协同机制,开展多样党建共建活动,共建“红色法制宣教基地”,实现资源共享、优势互补,助力公司及时了解国家新法新规、行业政策变化的同时,也助力司法监管单位智慧化、信息化、数字化发展,为维护人民群众财产、信息安全贡献移动力量。

  • GPTsWorks:第三方GPTs商店,聊天搜索GPTs。

    GPTs Works 是一个第三方GPTs商店,提供用户通过聊天的方式搜索和发现各种GPTs。该平台汇集了大量优秀的GPTs资源,用户可以通过提交链接或直接与平台交互来获取所需信息。平台的主要优点包括丰富的GPTs资源、便捷的搜索方式以及高效的信息获取能力。

  • ChartFast:AI数据分析师,秒速生成复杂图表。

    ChartFast是一个AI数据分析师工具,旨在简化您的数据可视化和分析任务。它自动化了重复且耗时的数据工作,让您能够快速生成精确而时尚的图表。

  • String Theories:探索和理解弦理论的交互式平台

    String Theories 是一个致力于教育和普及弦理论的交互式网站。它通过可视化工具和模拟,帮助用户理解复杂的物理概念,如弦、膜以及它们在宇宙学中的应用。该平台由物理学家和教育者共同开发,旨在提高公众对现代物理学前沿理论的认识。

  • Studymap.ai:个性化学习计划生成器

    Studymap.ai 是一个利用人工智能技术帮助用户生成个性化学习计划的在线平台。用户可以通过上传YouTube视频链接或文章,平台将基于这些内容生成具有结构化的章节、在线资源和项目想法的完整课程。它还提供进度跟踪功能,帮助用户更有效地学习。

  • ResumaidPro:定制化简历构建工具,AI辅助,提升求职效率。

    ResumaidPro是一款利用人工智能技术帮助求职者快速定制化简历的在线工具。它通过浏览器插件形式,允许用户在浏览器标签页内直接定制简历,优化简历内容以通过自动应聘筛选系统(ATS)。它使得简历定制化变得简单快捷,节省了求职者宝贵的时间,同时提高了求职成功的几率。产品背景是通过利用技术改善简历编写过程,以适应快速变化的就业市场。产品提供了不同套餐,包括按月或按季度计费,并且提供了免费试用。

  • CheckVisaSlots:实时监测美国签证预约空位

    CheckVisaSlots是一个专注于帮助学生和旅行者监测美国签证预约空位的在线服务。它通过提供实时的签证预约信息,帮助用户及时了解签证预约的可用情况,从而更好地规划他们的签证申请流程。该服务特别适合那些需要及时获取签证信息以安排旅行或教育计划的用户。

  • 星界AI:一站式AI图文创作神器

    星界AI是一款集成了多种AI大模型的图文创作神器,包括ChatGPT、谷歌Gemini、百度文心一言等,提供文案创作、知识问答、教育辅导、灵感启发等功能,以提高工作效率和创造力。

  • 神笔AIPPT系统:一键生成海量模板,支持SaaS多开的全开源系统

    神笔AIPPT系统是一款支持一键生成和海量模板的在线建站工具,采用SaaS模式,允许无限多开。该系统基于thinkphp 6.1 + mysql 5.7 + vue3 + vite5技术栈开发,完全开源,支持定制二次开发,适用于需要快速搭建个性化网站的用户。产品原价2888元,提供详细的安装部署文档和参数配置文档,以及使用过程中的免费指导服务。

  • Vozo:AI视频生成器,一键重写和配音视频。

    Vozo是一个AI视频生成器,它允许用户通过AI提示重写视频脚本、自动配音和唇形同步,从而快速生成新的视频内容。它支持将视频翻译成多种语言,并且可以针对不同的受众群体定制视频内容。Vozo的主要优点包括易用性、高效性以及能够保持原有视频的魅力。

  • 扣子专业版:企业级 AI 开发平台,无需编程技能,快速搭建个性化应用。

    扣子专业版是一款企业级 AI 应用开发平台,旨在帮助用户快速、低门槛地构建个性化的 AI 应用,支持无编程技能的用户使用。该平台拥有 1 万 + 插件的丰富生态,能够构建功能强大的大模型应用,同时支持数据私有化及团队协作,适合各类企业需求。定价灵活,能够满足不同规模的企业使用需求,是推动企业数字化转型的重要工具。

  • Gobi:个性化情绪健康指导APP

    Gobi是一款致力于提供个性化情绪健康指导的应用程序。它由一群对AI充满热情的团队开发,团队成员来自Google、Microsoft、Meta和Scale AI等知名公司。Gobi通过实时生成基于科学的语音指导健康实践,帮助用户管理情绪健康。产品的主要优点包括全天候的人性化健康支持、适应性AI个性化、实时健康实践生成、日常检查和情绪健康跟踪等。

  • DiT-MoE:大规模参数扩散变换器模型

    DiT-MoE是一个使用PyTorch实现的扩散变换器模型,能够扩展到160亿参数,与密集网络竞争的同时展现出高度优化的推理能力。它代表了深度学习领域在处理大规模数据集时的前沿技术,具有重要的研究和应用价值。

  • Picogen AI Image API:AI图像生成API,提供高质量的4K图像生成和编辑功能。

    Picogen AI Image API是一个领先的AI图像生成平台,提供与Midjourney, Stable Diffusion和DALL-E相媲美的高质量图像生成服务。它支持生成高达4K分辨率的图像,并且具备图像合并、背景移除和8K分辨率的图像放大等高级功能。Picogen旨在为数字营销人员、平面设计师、内容创作者等专业人士提供强大的视觉内容创作工具。

  • Colocio AI:一站式在线营销工具,由AI驱动,简化广告和内容创作。

    Colocio AI是一款集成了人工智能技术的在线营销工具,旨在帮助用户创建、评估和自动化在线广告活动。它通过AI技术生成高转化率的广告文案和社交媒体内容,提供无障碍的内容调度功能,以及实时的AI辅助和数据驱动的报告,帮助用户优化广告活动,提高性能。Colocio AI的背景是简化内容和媒体创作流程,专注于为品牌和目标受众量身定制内容,同时释放用户时间,让他们专注于战略规划和与受众互动,推动业务创新和增长。

  • Supermemory.ai:你的个人数字第二大脑

    Supermemory是一个致力于帮助用户组织、搜索和利用保存信息的平台。它提供强大的工具,如搜索引擎、写作助手和画布,旨在成为用户的个人第二大脑。它注重隐私保护,可在任何地方工作,支持自托管,并且价格亲民,提供免费层级。

  • Dialed:个性化AI激励演讲,激发潜能。

    Dialed是一款AI驱动的应用程序,旨在通过个性化的激励演讲来激发用户的潜能。无论是健身、演讲还是日常挑战,Dialed都能提供个性化的激励和启发。产品的主要优点包括个性化的激励演讲、真诚的支持、传奇的演讲定制、多种声音选择、背景音乐以及AI生成的激励图像。此外,Dialed还允许用户将激励演讲分享给朋友和家人。

  • Aphrodite-engine:PygmalionAI的大规模推理引擎

    Aphrodite是PygmalionAI的官方后端引擎,旨在为PygmalionAI网站提供推理端点,并允许以极快的速度为大量用户提供Pygmalion模型服务。Aphrodite利用vLLM的分页注意力技术,实现了连续批处理、高效的键值管理、优化的CUDA内核等特性,支持多种量化方案,以提高推理性能。

  • ICSFSurvey:深入研究大型语言模型的内部一致性和自我反馈

    ICSFSurvey是一个关于大型语言模型内部一致性和自我反馈的调查研究。它提供了对LLMs自我评估和自我更新机制的统一视角,包括理论框架、系统分类、评估方法、未来研究方向等。

  • Stable Audio Open demo:从文本提示生成立体声音频

    Stable Audio Open 是一个能够从文本提示生成长达47秒的立体声音频的技术。它包含三个主要组件:一个将波形压缩到可管理序列长度的自编码器、一个基于T5的文本嵌入用于文本条件、以及一个在自编码器的潜在空间中操作的基于变换的扩散(DiT)模型。该技术在生成音频方面表现出色,能够根据文本提示生成各种类型的音频,如打击乐、电子音乐、自然声音等。

  • Claude Engineer:利用Anthropic的Claude模型辅助软件开发任务的高级命令行界面。

    Claude Engineer是一个高级的命令行界面,它利用Anthropic的Claude 3和Claude 3.5模型的能力,来协助完成广泛的软件开发任务。这个工具无缝地结合了最先进大型语言模型的能力与实用的文件系统操作、网页搜索功能、智能代码分析和执行能力。

今日大家都在搜的词: