首页 > 业界 > 关键词  > Mobile-Agent最新资讯  > 正文

​Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理

2024-01-31 16:48 · 稿源:站长之家

划重点:

📱 纯视觉解决方案,无需系统代码,通过图像分析理解和操作手机

🤖 能完成多种任务,如购物、播放音乐、使用导航APP、写便签和发邮件

🔍 特点包括独立于XML和系统元数据、即插即用、自主任务规划和执行、自反思能力

站长之家(ChinaZ.com)1月31日 消息:Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理

image.png

该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要任何系统代码,完全通过分析图像来理解和操作手机。 它能够自动完成各种任务,比如可以在淘宝加购物车车,在APP播放音乐,自主使用导航APP,收发邮件等等。

Mobile-Agent的主要特点包括操作范围不受限制,多应用操作,以及采用纯视觉解决方案。其无需探索和培训,用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估,包括10个主流单应用场景和1个多应用场景,为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景,以及一个多应用场景。

每个场景设计了三个不同难度的指令,以评估 Mobile-Agent 在各种任务下的表现,具体如下

应用操作说明
阿里巴巴1.帮我在阿里巴巴找帽子。

2.帮我在阿里巴巴找帽子。如果商品信息页面中显示“添加到购物车”,请将商品添加到我的购物车。

3.我想买一顶帽子。我听说阿里巴巴的东西很便宜。也许你可以帮我找到它。

亚马逊音乐1.在亚马逊音乐中搜索歌手周杰伦。

2. 在亚马逊音乐中搜索一首关于“特工”的音乐并播放。

3.我想听音乐放松一下。寻找一个应用程序来帮助我。

谷歌浏览器1. 搜索今天湖人队比赛的结果。

2. 搜索有关泰勒·斯威夫特的信息。

3. 我想知道今天湖人队比赛的结果。寻找一个应用程序来帮助我。

邮箱1. 发送一封空电子邮件至 {address}。

2. 发邮件到{address}n告诉我的新作品。

3. 我想让我的朋友知道我的新作品,他的地址是{address}。寻找一个应用程序来帮助我。

谷歌地图1.导航至杭州西湖。

2. 导航到附近的加油站。

3.我想去杭州西湖,但不认识路。寻找一个应用程序来帮助我。

谷歌游戏1. 在 Play 商店下载 WhatsApp。

2. 在 Play 商店下载 Instagram。

3. 我想要在手机上安装 WhatsApp。寻找一个应用程序来帮助我。

笔记1. 在Notes中创建一个新笔记。

2. 在Notes中创建一个新笔记并写入“您好,这是一条笔记”,然后保存。

3.我突然有事要记录,帮我找个App,写下以下内容:下午3点开会。

设置1.开启深色模式。

2. 打开飞行模式。

3. 我想查看电池电量下的实时网速,请帮我打开此设置。

抖音1. 在 TikTok 中滑动一段有关宠物猫的视频,并为该视频点“赞”。

2、在抖音里刷一段关于宠物猫的视频并评论“哦哦哦,好可爱的猫!”。

3.在TikTok中滑动视频。点击“喜欢”3只宠物视频猫。

YouTube1. 在 YouTube 上搜索有关斯蒂芬·库里的视频。

2. 在 YouTube 上搜索有关斯蒂芬·库里的视频,然后打开“评论”评论“哦,厨师,你的篮球精神一直激励着我”。

3. 我需要你帮助我在 YouTube 上表达我对斯蒂芬·库里的喜爱。

多应用程序1. 打开日历并查看今天的日期,然后转到“注释”并创建一个新注释以写入“今天是{今天的数据}”。

2.查看未来5天的温度,然后在笔记中新建一条笔记,写下温度分析。

3. 搜索今天湖人队比赛的结果,然后在注释中创建注释,为该结果撰写体育新闻。

MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块,使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频,展示其在实际操作中的性能和应用场景。

举报

  • 相关推荐
  • 2026智能客服技术演进与选型指南:从AI Agent到全链路服务重构

    文章探讨了AI+Agent驱动的智能客服发展趋势。根据Gartner报告,超92%企业已在核心业务中部署AI+Agent。全球智能客服市场规模预计突破1500亿元,年复合增长率超35%。技术架构呈现三大演进方向:大模型融合架构、全链路自动化引擎、云原生弹性架构。文章对比了2026年主流技术方案,包括全链路AI+Agent型(如羚羊Quick Service)、垂直领域深度优化型(如网易七鱼、晓多科技)及跨国合规与生态整合型(如Zendesk、华为云云客服)。核心选型需考量技术深度与业务适配性,企业决策者可遵循“界定战略目标-评估业务复杂度-规划技术演进”路径进行选择。结论指出,技术选型需综合考量厂商技术纵深、生态广度及行业理解能力,全链路AI+Agent路径因技术前瞻性、架构开放性与业务价值深度的平衡,展现出成为企业“智能服务中心”的潜力。

  • 奥思维AI Agent解决方案,赋能OPC开源创新

    1月30日,开放原子“园区行”(苏州站)暨OPC开源对接会在苏州人工智能产业园举办。本次活动聚焦开源技术与实体经济融合,汇聚政产学研及企业代表,共探产业数字化转型新路径。奥思维受邀参会,并带来《AI Agen在制造业落地实践的最后一公里》主题演讲,成为现场制造业AI落地的核心分享亮点。活动中,开放原子开源基金会业务发展部部长付海巍介绍到:基金会已成功孵�

  • 别傻傻买Mac Mini跑OpenClaw了!玩转AI代理,拼的不是显卡,是Token

    OpenClaw作为代理式AI开源框架,让AI从被动应答转向主动规划、调用工具、串联多步操作,成为数字世界的“全能助理”。其GitHub星标数已达14.3万,增长迅猛。然而,其自主决策特性也带来安全风险,如权限滥用、数据误删等。同时,OpenClaw的火爆推动了Agent普及,带来三大产业机会:一是云服务成为个人与中小企业入局的最低门槛;二是Token消耗迈入指数级增长阶段;三是Agent�

  • 范式官宣2026战略升维:以“AI Agent + 世界模型”为核 构建“AI + X”产业新生态

    1月30日,范式集团年会在北京举行。创始人戴文渊正式宣布,集团已完成品牌体系与战略架构的全面升级。范式确立了以“AI Agent + 世界模型”为核心的技术路线,开启“AI + X”的产业新生态。自2014年成立以来,范式坚持“AI for Everyone”的使命,始终致力于将AI的红利惠及每一个人,在金融、制造、能源等20多个领域积累了十多年的经验。2025年,公司完成集团化转型,在延续“

  • 销售易工单助手Agent搞定售后难题,让老客留得住、续得稳

    文章指出,超68%的客户流失源于售后体验不佳,45%的续约丢单与工单响应慢、修复率低、服务断档直接相关。为此,销售易基于NeoAgent平台推出全新工单助手Agent,深度融合AI能力与企业知识资产,赋能在线客服、技术支持及现场服务工程师。该助手贯穿服务响应、现场执行、工单交付三阶段,通过AI全链路提效、智能匹配派单、设备资产洞察、标准化作业指导及智能质检闭环,旨在压缩维修周期、提升服务效率,从而提升客户满意度与留存率,助力企业打造差异化服务竞争力。

  • 2025-2026智能客服品牌评测与选型指南:AI Agent引领全链路服务升级

    本文指出,2025-2026年智能客服行业正从技术试点迈向规模化落地,AI+Agent将主导实现全链路服务创新。文章分析了行业现状,提出企业选型应聚焦三大核心维度:核心能力评估(如大模型融合与全链路智能化)、适配性匹配(行业场景与定制化需求)以及资质与服务核查(安全合规与落地保障)。文中还评测了包括瓴羊Quick Service、网易七鱼、Zendesk、华为云云客服等在内的十大主流品牌,并为企业提供了一套四步选型指南,旨在帮助企业精准锁定契合自身业务需求的智能客服伙伴,实现降本增效与驱动增长。

  • 百融云创Agent 技术落地筑屏障,投资布局风险小更具确定性

    AI+Agent赛道火热,但资本对其风险评估愈发审慎。风险较小的公司通常具备技术落地能力与商业确定性,能解决实际痛点。以百融云创为例,其深耕企业级AI+Agent,通过MCP协议统一连接数据与工具,降低集成成本;利用GraphRAG构建知识图谱,提升回答准确性;并通过AgentDevOps实现AI行为可控、优化运维。商业模式上,采用RaaS(结果计费),让AI价值与财务指标挂钩,证明商业潜力。判断AI+Agent公司的资本风险需关注三点:技术能否解决真问题、落地是否有场景壁垒、商业是否可闭环验证。

  • 销售易 X 企业微信:企微会话 Agent 为私域客户运营全面提效

    截至2025年8月,企业微信已成为超过1400万家真实企业与组织连接客户的重要载体,每日服务用户超7.5亿。企业积累了大量会话数据,如何挖掘其价值成为关键。销售易深度整合企业微信,推出全新企微会话Agent,以7大智能化能力贯穿客户经营全流程,助力营销服务人员实现精准营销、高效跟进与服务质量提升。文章以一家汽车门店为例,展示了企微会话Agent如何通过智能抓取客户热点、自动补充客户标签、提供智能问答锦囊、自动总结对话并沉淀跟进记录等功能,帮助销售新人小王精准把握客户需求、高效回复复杂咨询、科学制定跟进方案,大幅提升成单概率。同时,系统通过全量会话的自动化合规性质检,帮助企业识别服务短板,驱动服务标准持续迭代,最终实现客户体验的全面升级。

  • 从代理《鹅鸭杀》到上线AI社交,沉寂7年的金山世游支棱起来了?

    Tech星球独家获悉,金山世游已在国内正式上线其代理的AI社交App“卿卿我我”。公开信息显示,该产品海外版于2023年推出,上线后表现突出,在亚洲区域AI应用创收效率排名中位列榜首,超越同期多款头部应用。此次国内版本落地,成为金山世游跳出传统游戏业务范畴,切入AI社交赛道的重要动作。 公开资料显示,金山世游于2020年从承载金山系游戏老牌业务的西山居独立,此

  • “扣子”官宣2.0品牌升级,推出全新功能Agent Skills、Agent Plan

    字节跳动旗下AI+Agent平台“扣子”于1月19日宣布品牌升级至2.0版本。此次升级基于超千万真实开发场景经验,对平台进行了全局重构,定位为帮助更多职场人的“工作伙伴”。核心升级包括:Agent+Skills(技能),通过封装行业知识与工具,让通用AI具备处理复杂专业任务的能力,并推出技能商店供用户一键安装使用;Agent+Plan(计划),支持AI理解长期目标、分解任务并持续执行与汇报,实现从即时问答到“可持续运作智能体”的升级;Agent+Office(办公),深度优化职场场景任务处理,如撰写报告、制作PPT、整理数据等,提供更贴合实际需求的解决方案;Agent+Coding(编程),升级为一站式云开发平台,支持通过自然对话轻松构建智能体、工作流、网站及移动应用等,并提供一键部署上线能力。整体而言,扣子2.0旨在通过集成多项核心能力,让AI真正成为用户解决专业、复杂任务的智能工作伙伴。

今日大家都在搜的词: