首页 > 业界 > 关键词  > AI竞争策略最新资讯  > 正文

多模态和Agent成为大厂AI的新赛 点

2025-04-30 08:49 · 稿源: 窄播公众号

声明:本文来自微信公众号“窄播”,作者:李威,授权站长之家转载发布。

这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力代理执行成为两个焦点。

大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多模态能力;后者则需要依托于Agent产品生态的不断成熟。

多模态方面,字节、百度、谷歌、OpenAI都在近期推出了多模态能力更强的基础大模型产品,为相应的应用创新带来了可能。阿里旗下的AI to C产品夸克,就在本周上线了基于「通义推理及多模态大模型+后训练」实现的「拍照问夸克」功能。

代理执行层面,在Manus指出方向之后,类似的通用Agent产品也在近期纷纷上线。其中就包括了字节旗下的扣子空间、百度的心响App、360的纳米AI、前百度高管的Genspark等。这些产品都主打一站式完成用户通过自然语言布置的复杂任务,并且都具有编写代码和连接第三方数据、工具的能力。

相比国内,海外巨头会更倾向于打造服务于单一场景的Agent。Notion推出了AI驱动的电子邮件服务Notion Mail,帮助用户组织电子邮件、起草回复、搜索消息等。OpenAI此前推出的Operator和Deep Research也分别聚焦在操作浏览器和研究领域。X AI则增加了Grok Studio,用来协助用户生成文档、代码、报告和小游戏。

从目前能够体验到的产品来看,多模态能力和代理执行能力的提升,确实为用户带来了更低门槛、更高效率的AI使用体验。套用微软CEO纳德拉夸赞自家Copil ot体验的话,具备执行能力的通用Agent就是在为用户搭建一个脚手架,并在上面放好趁手的工具,助力用户完成日常工作、学习、生活相关的任务。

当这个产品成熟时,人们会发觉自己的工作、学习、生活的体验可能已经被其改变。但改变不是一个短期过程。这些还处于早期探索阶段的产品,在细节上差强人意,需要一段时间去打磨,从用户意图理解、第三方工具调用和相应内容的生成等方面,全方位提升产品体验。

从现阶段看,模型能力的强弱依然非常重要。大模型能力的提升和成本的降低,确实刺激了AI应用的爆发,也再次让人们看到了百度创始人李彦宏口中「应用统治未来世界」的可能。

但是,大模型技术还在持续突破,目前我们看到的Agent的不足之处,很多需要依靠模型能力的提升来完善。甚至未来有可能会实现「模型即应用」,画图有画图的模型,分析图表有分析图表的模型。现在看,OpenAI有向这个方向前进的倾向。

Agent的终局到底是什么,现在看来尚无定论。

多模态正在渗透进现实场景

从近期的大模型发布来看,多模态是重要的能力培养方向。字节旗下火山引擎发布的豆包1.5深度思考模型,能够结合视觉理解能力完成看图分析地貌、生成项目流程图等工作。李彦宏在介绍文心4.5Turbo时,通过识别马拉多纳「上帝之手」的照片和水槽实验视频中的不同颜色物体,展示了图像和视频的理解能力。

此外,OpenAI最新发布的o3和o4-mini也都具备看图表和自己画图的多模态理解能力。OpenAI称其首次实现了「用图像思考」。谷歌发布的首个混合推理模型Gemini2.5Flash能够比较精准地分析股票走势图,并能根据给到的素材图生成游戏场景设计图。

不断提升多模态推理能力的同时,各个厂商都在为这种能力寻找第一块试验田。夸克在推出AI超级框概念之后,最新上线了拍照问夸克功能,就是在将大模型的多模态能力注入到AI超级框中,让用户不但能够通过文字完成与AI超级框的交互,还能实现图文并茂的沟通。

在实际的使用过程中,我们发现拍照问夸克功能基本可以满足「拍照搜索」的体验,比如拍摄一个梅瓶的陈列,夸克可以回答出梅瓶的由来,以及它在宋朝会被用来盛酒。用户还可以拍摄照片,让夸克根据照片生成文案,或者识别食物的卡路里、辨别景点并给到游玩攻略。

通过加入图像,夸克可以让用户给AI下达更加精准的任务,然后调用夸克积累的Agent和原子功能,更好地完成任务。

图片

这其实是在让摄像头成为用户赋予AI的眼睛,未来可能不止依靠拍照,还会有直接通过摄像头进行的实时交互。这也是谷歌试图实现的多模态交互体验。

在谷歌多模态搜索产品负责人Rajan Patel的畅想中,多模态能力的融入,会让搜索变得毫不费力。用户在谷歌可以打字、可以说话、可以拍照,可以对着摄像头说自己需要什么,而谷歌将利用大模型、产品能力,帮助用户快速连接到相关且正确的信息。

也因此,多模态能力的提升,会影响到AI眼镜的进展。一位AI硬件创业者告诉《窄播》,现在之所以没有选择AI眼镜的方向,是因为多模态大模型还不成熟,他无法根据使用场景去进行产品定义。但是面向未来,类似用户与拍照问夸克的交互可能会从手机迁移到眼镜。

代理执行需要三个能力

多模态提升的是交流效率,Agent的重心则在于执行。

在2024年下半年,具备任务执行能力和系统操控能力的Agent就已经成为一门显学。但当时有两个问题尚待解决:一个是Agent产品的形态应该是什么样?另一个则是Agent与第三方数据、工具之间应该如何实现连接?

Manus的出现为大家指出了前进方向——通过对话框+工作区的方式,呈现Agent的工作场景,然后基于大模型能力理解、拆分用户任务意图,调用不同工具模块,协同完成任务。虽然会被人称作「缝合怪」,但是Manus确实让面向C端用户的通用Agent产品的雏形显现出来了。

近期发布的扣子空间、心响App、纳米AI的Agent能力以及Genspark基本都遵循了这个雏形模版。扣子空间分为三个部分,左边部分是任务目录,中间部分是任务交互区,右边可以展开一个Agent的工作空间。同时,扣子空间还会支持添加扩展,以及选择探索和规划两种思考深度不同的模式。

图片

从使用上看,扣子空间更擅长完成文字梳理工作。但在将梳理出的文字转化为网页时,扣子空间的效果会打折扣。我们尝试让扣子空间生成了一份腾冲旅游攻略、一个展示秦灭六国过程的网页和一次AI新闻汇总。文字版的腾冲旅游攻略要更详细,转化为网页后,信息量会被稀释,美食的配图也会出现问题。后两个任务也不太令人满意。

百度的心响App的特殊之处是选择了在移动端上线,相对可以完成的任务就会更轻量化和生活化,其推荐任务中不仅有旅游攻略、数据分析等通用Agent产品常见的任务,还会有数学解题、AI相亲、例行任务等类似聊天机器人的功能。整体感觉,心响App是文小言的Agent进化版。

我们认为,目前想要优化具体的任务体验,通用Agent们需要持续培养三个关键能力。

第一个是,能否连接足够数量的第三方数据和工具。MCP(Model Context Protocol,支持大模型与外部数据、工具集成的开源协议)和A2A(Agent2Agent,智能体协作协议)的推出,不但让第三方数据、工具有了顺畅接入通用Agent的统一接口,还赋予了Agent与Agent之间的交互、协作能力。

目前,国内厂商基本都接受了这种连接解决方案,接下来需要解决的是,如何扩充有效的工具箱。

纳米AI主打的卖点是「MCP万能工具箱」,号称接入了近百个优质第三方工具。扣子空间的扩展相对要少很多,而且有些只具备简单功能。以腾冲攻略为例,我可以用扣子空间里的墨迹天气扩展将天气预报添加进攻略中,但没有成功利用高德地图扩展生成每天的景点路线图,大部分尝试中,都只显示了腾冲在地图上的位置。

图片

编码则是通用Agent需要培养的第二项能力。AI编程为Agent解决复杂任务提供了一个通用的有效工具,无论是ppt、网页、图表的生成,还是小游戏的创作,都需要依赖编码能力来执行。有消息显示,OpenAI正在讨论用30亿美元收购AI编程初创公司Windsurf,借此来提升AI的编码能力。

第三个也是最底层的,是大模型的任务理解能力。只有具备更强的任务理解能力,通用Agent才能让更多人依赖其去完成任务,并保证任务的完成水准。这也是大厂在多模态能力之外,着力在提升的另外一项大模型能力。OpenAI在推出o3和o4-mini时,就强调这是一个知道去上网查资料、执行Python代码的「大脑」。

从目前的布局来看,OpenAI期待这个「大脑」在未来能够精准调度Operator和Deep Research等职业身份不同的Agent,前者是操控浏览器的司机,后者则是负责做研究的学者。未来可能还会有擅长编程的程序员,擅长讲故事的作家等Agent。

字节的扣子空间、百度的逻辑是像开发API一样开发Agent,需要有扣子、秒搭等Agent或工作流的搭建平台提供支持。而OpenAI的路径是按照职业去培养Agent。这是API逻辑之外的另一种更加拟人化的Agent生态培养模式。两个模式都是为了调用Agent生态,去完成不同的任务。

在OpenAI给到投资者的预期中,AI Agent及其他新产品合计销售额将在2025年末超越ChatGPT,达到30亿美元,到2029年Agent业务将为其贡献290亿美元的收入。这是一个非常乐观的预期。国内的通用Agent们也有可能从Agent体验升级中,奠定面向C端用户的收费模式。

实现这一预期的前提是,通用Agent们能够将多模态能力与Agent的执行能力结合起来,成为未来的底层入口。

举报

  • 相关推荐
  • 多模态Agent成为大厂AI

    本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势,重点分析了多模态能力和代理执行两大发展方向。文章指出,大模型落地的核心在于让人机交互更自然,具体表现为:1)通过多模态技术降低用户使用门槛,如阿里夸克新推出的"拍照问夸克"功能;2)通过代理执行提升复杂任务处理能力,如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显:国�

  • 可灵AI发布全2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • 谷歌A2A协议是什么? MCP 和 Agent2Agent 有什么区别?

    4月10日,在GoogleCloudNext大会上,谷歌宣布开源Agent2Agent协议,这一协议被业界视为智能体交互领域的“通用语言”,旨在突破跨平台、多模态协作及安全保障等核心技术瓶颈,并联合全球50余家科技企业共同构建新一代智能生态。本文从技术实现与行业变革两个维度,深度解析A2A协议的核心价值。这一协议的推出,标志着智能体协作模式从封闭系统向开放生态的范式转变,为产业数字化转型注入新动能。

  • UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 谷歌开源发布A2A协议 Agent2Agent智能体交互协议详细介绍

    在GoogleCloudNext25大会上,谷歌宣布开源了首个标准智能体交互协议——Agent2AgentProtocol,这一举措有望彻底改变智能体之间的交互方式,打破系统孤岛,对智能体的能力、跨平台协作以及执行效率产生质的飞跃。A2A协议是一种开放标准,旨在为智能体提供一种通用的交互方式,使它们能够在不同的底层框架和供应商之间无缝协作。每个部分都有指定的内容类型,这使得客户端和远程智能体能够协商所需的正确格式,并且明确包括用户界面能力的协商,比如iframe、视频、网络表单等,从根据用户的需求和设备的能力,提供最佳的用户体验。

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

    谷歌在GoogleCloudNext25大会上,开源了首个标准智能体交互协议——Agent2AgentProtocol。A2A将彻底打破系统孤岛,对智能体的能力、跨平台、执行效率产生质的改变,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企业应用平台。通过A2A协议,MongoDB可以使其数据库服务与智能Agent相结合,实现更高效的数据管理和自动化数据处理。

  • 业界唯一!百度网盘上线多模态AI笔记 效率提升10倍

    快科技5月2日消息,过往,用户在通过视频学习并记录笔记时,总免不了要不停切换平台软件,暂停、截屏、记录、插图、批注、切换返回视频过程繁琐而低效。为了应对这种情况,百度网盘和百度文库联合研发上线了AI笔记”,支持全自动学习、半自动学习、辅助学习三种模式。如今只要在网盘里面任意打开一个学习视频,在右侧就能看到AI笔记”功能,用户可以自主输入内容,也可以让其直接生成图文并茂、结构清晰的笔记。而且每个重要知识点旁会有时间戳,点击时间戳即可跳转到视频中对应位置,实现视频和笔记内容的顺滑关联。此外AI笔记”还可以帮