首页 > AI头条  > 正文

Salesforce与南加州大学推出CoAct-1:用代码+GUI混合方法,将AI代理自动化推向新高度

2025-08-13 10:54 · 来源: AIbase基地

Salesforce与南加州大学的研究人员共同开发了一项名为 CoAct-1 的突破性技术,旨在通过结合编码和图形用户界面(GUI)操作的优势,显著提升AI代理在计算机上执行复杂任务的能力。这一混合方法旨在克服传统GUI代理的脆弱性,为更强大、可扩展的自动化铺平道路。

AI音乐 人工智能 (3)

传统AI代理的痛点:长任务与误点击

现有的计算机AI代理通常依赖视觉语言模型(VLM)来感知屏幕并模拟鼠标键盘操作。虽然这类“点击式”代理能执行各种任务,但在面对办公生产力套件等具有密集菜单和复杂工作流程的应用时,它们往往表现不佳。研究人员指出,在这些场景中,单一的误点击或对UI元素的误解,都可能导致整个任务失败。

为了应对这一挑战,研究人员曾尝试利用高级规划器来增强GUI代理,但这种方法依然无法解决那些通过几行代码就能更直接、更可靠地完成的操作。

QQ20250813-104954.png

CoAct-1:一个多智能体协作的混合系统

为解决这些限制,CoAct-1系统应运而生。其核心理念是“将GUI操作的直观优势与通过代码直接进行系统交互的精确性、可靠性和效率相结合”。该系统由一个由三个专门代理组成的团队协作完成任务:

  • 编排器(Orchestrator):作为中央规划器,它负责将用户的总体目标分解为子任务,并分配给最合适的代理。

  • 程序员(Programmer):负责编写和执行Python或Bash脚本,处理文件管理或数据处理等后端操作。

  • GUI 操作员(GUI Operator):基于VLM,专门处理需要点击按钮或导航界面的前端任务。

这种动态委托机制使得CoAct-1能够策略性地绕过低效的GUI操作,转而采用更稳健、更高效的代码执行,同时保留视觉交互的必要性。整个工作流程是迭代的,每个代理完成子任务后都会向编排器汇报,由其决定下一步行动。

QQ20250813-105039.png

性能飞跃:更快、更高效

研究人员在 OSWorld 基准测试上对CoAct-1进行了测试,该基准包含了369个跨浏览器、IDE和办公应用程序的实际任务。结果显示,CoAct-1取得了 60.76%的成功率,树立了新的最高水平。

尤其是在操作系统级任务和多应用程序工作流中,CoAct-1的性能提升最为显著。更重要的是,该系统的效率也大幅提高,平均只需 10.15步 即可完成任务,远少于其他领先的纯GUI代理所需的15.22步。研究人员指出,更少的步骤不仅能加快任务完成速度,还能最大限度地减少出错的机会,从而实现更高效、更可靠的自动化。

从实验室走向企业:潜在的应用与挑战

这项技术拥有巨大的企业应用潜力。Salesforce应用AI研究总监 Ran Xu 指出,客户支持、销售勘探、自动化簿记和营销活动管理等领域都是完美的用例。在这些场景中,企业需要处理有API和无API的多种工具,而CoAct-1能够灵活利用代码和屏幕,提供全面的自动化解决方案。

然而,将CoAct-1从实验室推向企业环境也面临挑战,包括应对遗留软件、确保安全性和人工监督的必要性。徐强调,需要通过在沙盒环境中训练来提高代理的适应性,并建立强大的访问控制和安全护栏,以防止恶意代码执行。最终,在可预见的未来,“人在环”(human-in-the-loop) 的模式将是确保代理安全、可靠运行的关键。

  • 相关推荐
  • 软件测试的“自动驾驶革命”:从工具自动化到思维智能化

    AI正推动软件测试领域变革,测试团队脚本维护时间减少60%,工作重心转向策略设计与异常监控。行业报告显示,AI驱动的测试效率提升显著,尤其在探索性测试中可发现人工难以预见的边缘场景缺陷。实践案例表明,金融、汽车等行业引入AI测试后,迭代周期缩短,用例自动生成率大幅提升。未来测试工程师将更专注于质量体系设计和风险分析,而非脚本编写,实现从“人工密集型”向“智能驱动型”的转变。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 腾讯视频暑期档短剧全域领跑,定义精品短剧新高度

    今年上半年,腾讯视频短剧以全方位领先姿态持续领跑行业:全域声量突破400亿,斩获全网热搜超700个,并在分账票房、用户互动、口碑热度等多维度实现全面领跑,展现出平台在短剧领域的系统化布局与生态级能力。进入暑期档,该势头全面爆发,多部精品短剧不仅斩获高分账票房,更在用户互动、话题发酵与榜单占位上多维开花,进一步夯实了腾讯视频短剧的行业标杆地位�

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 声启未来新章 BANG & OLUFSEN 铂傲 推出全新Beo grace耳机

    Bang & Olufsen推出全新无线耳机Beo Grace,融合纤薄铝制机身与卓越音质,体现品牌对声学创新与永恒设计的追求。耳机灵感源自高级珠宝,采用标志性抛光铝材打造,支持杜比全景声与自适应主动降噪技术,降噪效果较前代提升四倍。配备12毫米钛金属驱动单元,续航达4.5小时(搭配充电盒可达17小时),具备IP57防水防尘。通过NearTap™手势操控与定制电池管理系统,兼顾便捷使用与长效耐用,开启可佩戴声学新纪元。

  • 浪漫自在,悦己之声 森海塞尔ACCENTUM Open 真无线耳机 樱花粉上市

    森海塞尔于2025年9月22日在北京发布ACCENTUM Open真无线耳机樱花粉配色。新品在保持卓越音质的同时,以柔和樱花粉点缀耳畔,融合半开放式声学结构与舒适贴耳设计,支持蓝牙5.3多设备连接、双麦克风降噪及28小时续航。耳机单只仅重4.35克,配备IPX4防水,兼顾轻盈佩戴与全天候使用。樱花粉作为继经典黑白后的新配色,将于9月28日正式发售。森海塞尔强调其致力于创新音频解决方案,2025年正值品牌创立80周年,持续为客户打造独特声音体验。

  • ColorOS 16阶段性爆料总结:拥有安卓首个跨级融合编译技术

    ColorOS 16将于10月15日正式发布,流畅度、AI、设计、互联四大方面全面升级。系统带来安卓首个无缝架构和芯片级动态追帧技术,确保全场景流畅体验;AI功能全面覆盖相册、便签等日常应用,新增AI人像补光、AI写作等实用功能;设计语言全新升级,图标动画交互全面优化;生态互联支持通知流转、电脑投屏等跨设备协同。目前Beta版已开启招募,支持一加13、Find X8系列等多款机型。

  • 可灵AI亮相釜山国际电影节 技术实力获韩媒高度评价

    9月20日,可灵AI亮相第30届釜山国际电影节,参与亚洲内容与电影市场论坛,与AWS、Google等全球科技企业探讨AI与影视叙事的融合创新。作为首个登上国际电影节的国产AI视频生成模型,可灵AI凭借卓越技术获韩国主流媒体高度评价,现场演示仅用几张照片即生成生动视频,展现高效低成本的影视制作能力。可灵AI还宣布将参与戛纳电视节、东京国际电影节,并启动全球AI影像创作大赛,推动行业交流与人才孵化。目前其生态已覆盖149个国家地区,服务超4500万创作者,彰显中国AI在影视领域的全球影响力与赋能决心。

  • 2025 HarmonyOS Connect伙伴峰会顺利举办,小豚当家携黑科技新品精彩亮相!

    2025年9月26日,HarmonyOS Connect伙伴峰会在深圳举行。小豚当家作为鸿蒙智选生态首批伙伴,发布首款搭载鲸瞳影像的户外摄像头鲸瞳Max,实现0.01Lux暗光全彩成像,破解日夜全彩难题。产品集成星瀚AI大模型,具备主动思考与看懂能力,推动家庭安防进入“看懂时代”。同时打通家庭存储,构建全链路安防体系,支持多设备联动与多终端共享。小豚当家与鸿蒙智选合作六年,多款产品完成HarmonyOS适配,实现无缝协同。此次发布标志着家庭安防生态迈出重要一步。

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

今日大家都在搜的词: