首页 > AI头条  > 正文

成功率高达95.4%!Agent Q横空出世,AI界新秀还是"草莓"营销大师?

2024-08-14 14:20 · 来源: AIbase基地

最近,一家名为MultiOn的初创公司发布了一款名为Agent Q的智能体,号称在真实任务中达到了惊人的95.4%成功率,引起了广泛关注。

而更引人注目的是,MultiOn的CEO Div Garg在推特上频频使用草莓表情,让人不禁联想到OpenAI神秘的Q项目。

image.png

网友们对Agent Q背后的技术充满了好奇。有人猜测,这背后可能有OpenAI的Q*项目加持。MultiOn公司不仅给Agent Q开设了独立的推特账号,而且账号的背景图片和基本信息都与草莓有关,这无疑增加了人们对其背后技术的好奇。

image.png

Agent Q结合了搜索、自我反思和强化学习,能够进行规划和自我修复。它通过引入一种新的学习和推理框架,解决了之前LLM训练技术的局限性,使其能够实现自主网页导航。

在模拟网上商店的任务中,Agent Q展现了强大的搜索能力。而在Open Table的真实预订任务中,Agent Q更是将LLaMa-3的零样本成功率从18.6%提升至81.7%,分数提高比例达340%,而且仅经过了一天的自主数据收集。

image.png

虽然Agent Q在评估实验中表现出色,但目前所用的方法仍存在许多讨论和改进的空间。例如,推理算法的设计、搜索策略的选择以及在线安全与交互等方面都需要进一步研究和优化。

Agent Q的出现无疑是AI智能体领域的一大进步,但它是否能够成为AI界的新贵,还是仅仅是一次高明的炒作,还有待时间的检验。无论如何,Agent Q的发布都为AI的发展带来了新的可能性和启示。

参考资料:


https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities

  • 相关推荐
  • GPT-5横空出世:API最低0.40美元,人人享“博士级智慧”

    OpenAI正式发布新一代旗舰模型GPT-5,CEO奥尔特曼称其智能水平如同与博士级专家对话。该模型在写作、编码、医疗等核心领域表现突出,幻觉率大幅降低80%,输出token数量减少50%-80%。GPT-5系列包含多个版本,其中GPT-5nano的API价格低至0.4美元/百万token,极具竞争力。基准测试显示GPT-5以68分位居榜首,超越Grok-4等对手。OpenAI同时宣布向所有用户开放使用,并计划升级语音模式,探索

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • 第一个能帮你做生意的Agent来了。

    这是一个面向外贸、面向海外的tob产品,所以国内可能知道的人并不是很多。 但其实,Accio已经默默攒了200万企业级客户了。 ToB领域,200万客户,这是什么水平,大家懂得都懂。。。 我之前因为刘世奇,认识了阿里国际站,我自己本身就对外贸非常感兴趣,后来又当主持人和阿里国际站一起搞过他们的新品发布会,关系很不错。 所以托他们的福,这次,我也能第一手,抢�

  • 一个邪修方法,帮你把用Agent的钱省掉80%。

    ​之前我分享过一个Agent,Minimax的那个,因为我觉得Agent能力,是真的很棒,东西好用也是真的好用。 但文章发出去之后,评论区里最多的声音,几乎都指向了同一个字: 贵。

  • 格创东智再获权威认可,AI Agent解决方案入选甲子光年报告

    格创东智凭借工业AI+Agent创新实践入选甲子光年智库《企业级AI+Agent(智能体)价值及应用报告》,继获评"星跃100"2025中国AI产业逐浪者奖项后再获头部科技媒体认可。报告指出,该公司在复杂工作流编排、工具集成和领域知识沉淀三大维度表现突出,成为工业智能化转型标杆案例。其自主研发的章鱼智脑Agentic+AI平台支持多Agent协同和复杂工作流编排,通过"模型即服务、知识可视化、流程任编排"重构工业AI开发范式。典型案例"设备知识库Agent小鲁班"为半导体企业实现故障处理效率提升62%,年增收数千万元。公司持续深化"工业智能体"等研发投入,累计投入超10亿元,沉淀工业机理模型35000+个,构建了AI、工业软件、智能装备三合一的全栈服务生态。预测到2026年认知型Agent将覆盖70%企业复杂决策场景,格创东智将持续引领工业AI解决方案创新,助力中国制造业数字化升级。

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 小米首款400%大音量!REDMI Note 15 Pro系列响度高达82.5dB:不怕漏接女朋友电话

    REDMI Note15 Pro系列将于8月21日19:00发布,将带来REDMI Note 15 Pro、REDMI Note 15 Pro 两款机型。 今日,REDMI继续为新机预热,REDMI Note15 Pro系列是小米首款支持400%大音量模式的手机,响度高达82.5dB。 官方宣称油烟机最强档,来电也能听得清”,在嘈杂环境用机不会错过家人、工作等重要来电。 此外,REDMI Note15 Pro系列还搭载旗舰1115对称双扬声器,是小米首款立体声大音量手机,大音量

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • TCL科技定增募资发行,每股发行价4.21元,折扣率95%

    8月14日,TCL科技发布公告,以4.21元/股向16家投资者定向增发A股,募资43.59亿元用于收购深圳华星半导体21.53%股权。该项目交易额达115.62亿元,创2021年以来电子行业最大规模定增项目。本次发行获43家机构超额认购,认购倍数达3.61倍,最终发行价较市价折让5%。值得注意的是,中国人寿等9家大型险资集体参与认购,显示资本市场对面板行业价值重估的认可。交易完成后,TCL科技半导体显示龙头地位进一步巩固。

今日大家都在搜的词: