首页 > 业界 > 关键词  > Mobile-Agent最新资讯  > 正文

​Mobile-Agent: 具有视觉感知 可以像人类样操作手机的自主多模态AI代理

2024-01-31 16:48 · 稿源:站长之家

划重点:

📱 纯视觉解决方案,无需系统代码,通过图像分析理解和操作手机

🤖 能完成多种任务,如购物、播放音乐、使用导航APP、写便签和发邮件

🔍 特点包括独立于XML和系统元数据、即插即用、自主任务规划和执行、自反思能力

站长之家(ChinaZ.com)1月31日 消息:Mobile-Agent是一款具有视觉感知的自主多模式移动设备代理,由北京交通大学联合阿里巴巴团队共同开发。简单的说,Mobile-Agent相当于一个可以模拟人类操作手机的自主多模态AI代理

image.png

该代理采用纯视觉解决方案,独立于XML和系统元数据,不需要任何系统代码,完全通过分析图像来理解和操作手机。 它能够自动完成各种任务,比如可以在淘宝加购物车车,在APP播放音乐,自主使用导航APP,收发邮件等等。

Mobile-Agent的主要特点包括操作范围不受限制,多应用操作,以及采用纯视觉解决方案。其无需探索和培训,用户可随时使用。项目团队通过 Mobile-Eval 进行了性能评估,包括10个主流单应用场景和1个多应用场景,为用户提供了详细的评估结果。该评估覆盖了阿里巴巴、亚马逊音乐、谷歌地图等10个应用场景,以及一个多应用场景。

每个场景设计了三个不同难度的指令,以评估 Mobile-Agent 在各种任务下的表现,具体如下

应用操作说明
阿里巴巴1.帮我在阿里巴巴找帽子。

2.帮我在阿里巴巴找帽子。如果商品信息页面中显示“添加到购物车”,请将商品添加到我的购物车。

3.我想买一顶帽子。我听说阿里巴巴的东西很便宜。也许你可以帮我找到它。

亚马逊音乐1.在亚马逊音乐中搜索歌手周杰伦。

2. 在亚马逊音乐中搜索一首关于“特工”的音乐并播放。

3.我想听音乐放松一下。寻找一个应用程序来帮助我。

谷歌浏览器1. 搜索今天湖人队比赛的结果。

2. 搜索有关泰勒·斯威夫特的信息。

3. 我想知道今天湖人队比赛的结果。寻找一个应用程序来帮助我。

邮箱1. 发送一封空电子邮件至 {address}。

2. 发邮件到{address}n告诉我的新作品。

3. 我想让我的朋友知道我的新作品,他的地址是{address}。寻找一个应用程序来帮助我。

谷歌地图1.导航至杭州西湖。

2. 导航到附近的加油站。

3.我想去杭州西湖,但不认识路。寻找一个应用程序来帮助我。

谷歌游戏1. 在 Play 商店下载 WhatsApp。

2. 在 Play 商店下载 Instagram。

3. 我想要在手机上安装 WhatsApp。寻找一个应用程序来帮助我。

笔记1. 在Notes中创建一个新笔记。

2. 在Notes中创建一个新笔记并写入“您好,这是一条笔记”,然后保存。

3.我突然有事要记录,帮我找个App,写下以下内容:下午3点开会。

设置1.开启深色模式。

2. 打开飞行模式。

3. 我想查看电池电量下的实时网速,请帮我打开此设置。

抖音1. 在 TikTok 中滑动一段有关宠物猫的视频,并为该视频点“赞”。

2、在抖音里刷一段关于宠物猫的视频并评论“哦哦哦,好可爱的猫!”。

3.在TikTok中滑动视频。点击“喜欢”3只宠物视频猫。

YouTube1. 在 YouTube 上搜索有关斯蒂芬·库里的视频。

2. 在 YouTube 上搜索有关斯蒂芬·库里的视频,然后打开“评论”评论“哦,厨师,你的篮球精神一直激励着我”。

3. 我需要你帮助我在 YouTube 上表达我对斯蒂芬·库里的喜爱。

多应用程序1. 打开日历并查看今天的日期,然后转到“注释”并创建一个新注释以写入“今天是{今天的数据}”。

2.查看未来5天的温度,然后在笔记中新建一条笔记,写下温度分析。

3. 搜索今天湖人队比赛的结果,然后在注释中创建注释,为该结果撰写体育新闻。

MobileAgent的特点包括依赖于纯视觉解决方案、独立于XML和系统元数据、具备多种视觉感知工具进行操作定位、无需探索和训练即插即用。其工作原理涵盖视觉感知工具、自主任务规划和执行、自反思等关键模块,使其能够准确识别和操作手机屏幕上的各种元素。团队宣布即将发布移动代理的演示视频,展示其在实际操作中的性能和应用场景。

举报

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • Agent成了腾讯AI最大的牌面

    抓住DeepSeek带来的契机扭转AI领域的竞争态势之后,腾讯围绕AI应用的布局正在快速深化。 元宝、ima等原生AI应用是腾讯进行探索的最前线。腾讯元宝通过大规模市场投入获得用户增长后,继续拓展了更多能力,包括将元宝放入微信好友列表,打通与腾讯地图、腾讯文档的连接,以及上线Chrome浏览器插件。腾讯管理层目前还在观察用户对这些新增功能的反馈,判断哪些功能可以�

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • 如何用AI Agent让企业效率翻倍?

    2025年5月,红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身,而是为用户创造的实际收益。在此背景下,Agent的重要性被前所未有的推至所有人的视野前沿。 硅谷大厂开启了第一波加速,微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代,正在见证AI系统如何以全新方式帮助我们解决问�

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�

  • AI智能生成2万封邮件,全球首款外贸信AI Agent亮相

    2025年印尼雅加达国际工业周于6月4-7日盛大开幕,米奥兰特推出全球首个展会场景外贸AI+Agent系统,实现"沟通即生成"的智能贸易新模式。展会吸引超4.5万专业买家,AI预展平台和智能体技术驱动下,买卖对接率突破50%。核心亮点包括:1)AI眼镜支持128种语言实时翻译,打破语言壁垒;2)外贸信AI Agent自动生成含产品参数、运输条款等定制邮件,10分钟完成传统需通宵的工

  • AI触控云台浩瀚V3 Ultra发布,首发AI多模态追踪模块,定义手机云台轻旗舰标准!

    6月6日,浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品,它搭载行业首创AI多模态万物原生跟拍技术,支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统,折叠后体积小巧便携。配备22英寸触控彩屏,支持5米手势控制和隔空补光功能。售价999元起,同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年,产�

  • 火山引擎Data Agent体验中心正式上线!企业级AI数据专家触手可及

    火山引擎数智平台开放企业级数据智能体Data Agent体验中心,用户可零门槛体验"企业数字专家"在数据垂直领域的深度能力。该产品定位为"企业第一位AI数据专家",已上线股票分析、经营复盘、营销策略等6大场景应用。通过"数据+知识"融合、人机协同等核心价值,突破传统分析工具边界,实现从描述性分析到行动建议的跨越。作为L3级智能体,它能将企业内外部信息转化为可量化数字资产,显著降低数据使用门槛,提升决策效率。Gartner预测到2028年至少15%的日常决策将由AI自主完成。火山引擎此举标志着企业数据应用正式进入"动态智能体"时代。

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。