首页 > 业界 > 关键词  > Mobile-Agent最新资讯  > 正文

​Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理

2024-01-31 16:48 · 稿源:站长之家

划重点:

📱 纯视觉解决方案,无需系统代码,通过图像分析理解和操作手机

🤖 能完成多种任务,如购物、播放音乐、使用导航APP、写便签和发邮件

🔍 特点包括独立于XML和系统元数据、即插即用、自主任务规划和执行、自反思能力

站长之家(ChinaZ.com)1月31日 消息:Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理

image.png

该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要任何系统代码,完全通过分析图像来理解和操作手机。 它能够自动完成各种任务,比如可以在淘宝加购物车车,在APP播放音乐,自主使用导航APP,收发邮件等等。

Mobile-Agent的主要特点包括操作范围不受限制,多应用操作,以及采用纯视觉解决方案。其无需探索和培训,用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估,包括10个主流单应用场景和1个多应用场景,为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景,以及一个多应用场景。

每个场景设计了三个不同难度的指令,以评估 Mobile-Agent 在各种任务下的表现,具体如下

应用操作说明
阿里巴巴1.帮我在阿里巴巴找帽子。

2.帮我在阿里巴巴找帽子。如果商品信息页面中显示“添加到购物车”,请将商品添加到我的购物车。

3.我想买一顶帽子。我听说阿里巴巴的东西很便宜。也许你可以帮我找到它。

亚马逊音乐1.在亚马逊音乐中搜索歌手周杰伦。

2. 在亚马逊音乐中搜索一首关于“特工”的音乐并播放。

3.我想听音乐放松一下。寻找一个应用程序来帮助我。

谷歌浏览器1. 搜索今天湖人队比赛的结果。

2. 搜索有关泰勒·斯威夫特的信息。

3. 我想知道今天湖人队比赛的结果。寻找一个应用程序来帮助我。

邮箱1. 发送一封空电子邮件至 {address}。

2. 发邮件到{address}n告诉我的新作品。

3. 我想让我的朋友知道我的新作品,他的地址是{address}。寻找一个应用程序来帮助我。

谷歌地图1.导航至杭州西湖。

2. 导航到附近的加油站。

3.我想去杭州西湖,但不认识路。寻找一个应用程序来帮助我。

谷歌游戏1. 在 Play 商店下载 WhatsApp。

2. 在 Play 商店下载 Instagram。

3. 我想要在手机上安装 WhatsApp。寻找一个应用程序来帮助我。

笔记1. 在Notes中创建一个新笔记。

2. 在Notes中创建一个新笔记并写入“您好,这是一条笔记”,然后保存。

3.我突然有事要记录,帮我找个App,写下以下内容:下午3点开会。

设置1.开启深色模式。

2. 打开飞行模式。

3. 我想查看电池电量下的实时网速,请帮我打开此设置。

抖音1. 在 TikTok 中滑动一段有关宠物猫的视频,并为该视频点“赞”。

2、在抖音里刷一段关于宠物猫的视频并评论“哦哦哦,好可爱的猫!”。

3.在TikTok中滑动视频。点击“喜欢”3只宠物视频猫。

YouTube1. 在 YouTube 上搜索有关斯蒂芬·库里的视频。

2. 在 YouTube 上搜索有关斯蒂芬·库里的视频,然后打开“评论”评论“哦,厨师,你的篮球精神一直激励着我”。

3. 我需要你帮助我在 YouTube 上表达我对斯蒂芬·库里的喜爱。

多应用程序1. 打开日历并查看今天的日期,然后转到“注释”并创建一个新注释以写入“今天是{今天的数据}”。

2.查看未来5天的温度,然后在笔记中新建一条笔记,写下温度分析。

3. 搜索今天湖人队比赛的结果,然后在注释中创建注释,为该结果撰写体育新闻。

MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块,使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频,展示其在实际操作中的性能和应用场景。

举报

  • 相关推荐
  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • 数巅完成数亿元pre-A轮融资,领跑企业级AI Agent赛道

    北京数巅科技完成数亿元Pre-A轮融资,由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展,强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案,通过模块化架构整合海量行业知识与企业数据,精准识别用户需求,实现秒级响应与深度推理,满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地,查数准确率超99%,成为国内企业级智能体应用的重要里程碑。

  • 蝉妈妈AI新品震撼发布:电商营销Agent时代来临,6万+从业者共寻增长新引擎

    2025年电商竞争核心转向AI效率。蝉妈妈于10月23日发布电商专属AI工具,旨在解决传统运营痛点。该工具覆盖全链路场景:从行业分析、竞对数据到图文创作、视频脚本生成,帮助从业者实现策略制定到落地执行的一站式智能运营。发布会集结多位实战专家,分享全域增长、内容提效等可复用的方法论,吸引超6万观众。蝉妈妈凭借行业数据沉淀与AI技术结合,为电商从业者提供突破增长瓶颈的系统路径,推动行业迈向技术驱动的高效新纪元。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 零一万物联合开源中国推出OAK平台,目标打造Agent世界的“生态适配器”

    在GOT C 2025全球开源技术峰会上,零一万物CEO李开复博士发表演讲,强调开源模型是构建AI Agent的最佳选择。零一万物与开源中国联合发布一站式AI Agent开源开发平台OAK,支持对接多种开源大模型,旨在打破生态绑定限制,助力开发者实现“Agent开发自由”。该平台具备可视化编排、评估优化、数据管理等功能,未来将逐步推出四大核心模块,推动开放协作的AI Agent生态发展。

  • GEO时代必备:品牌AI搜索监控实操指南,用AIBase抢占AI可见性高地

    随着生成式AI成为主流信息入口,GEO(生成引擎优化)成为企业品牌曝光的关键。其核心是让品牌信息成为AI生成答案的首选引用源,而品牌AI搜索监控正是落地GEO策略的关键抓手。AIBase平台提供品牌监控服务,帮助企业精准追踪AI搜索可见性、解析GEO指数,实现数据驱动的优化。通过多平台覆盖、核心指标追踪和竞品对标分析,让品牌在AI生态中精准占位,提升权威性与可见性�

  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 墨刀AI Agent:更懂产品经理的超级智能体上线

    2025年AI将进入"智能体时代",从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造,具备三层核心能力:懂逻辑(理解需求生成原型)、懂场景(熟悉全流程工作)、懂协作(跨角色沟通优化)。它能贯穿调研、原型、文档、评审等环节,解放重复劳动,让产品经理专注高价值决策,实现从效率提升到决策升级的人机协作新模式。

  • 别再盯传统SEO了!AIBase GEO监控让品牌在AI搜索里C位出道

    随着AI搜索普及,品牌竞争转向生成引擎优化(GEO)新战场。传统SEO依赖网页排名,但AI模型直接生成答案,导致品牌在AI回答中的曝光陷入盲区。AIBase推出GEO品牌监控工具,实时追踪品牌在主流AI模型的提及情况,提供可见性分析、竞品对比及用户问题挖掘,帮助品牌优化内容策略,提升AI搜索存在感,让AI更倾向主动推荐。

今日大家都在搜的词: