首页 > 业界 > 关键词  > MobileAgent最新资讯  > 正文

阿里推自主多模态AI代理MobileAgent 可模拟人类操作手机

2024-02-01 09:24 · 稿源:站长之家

站长之家(ChinaZ.com)2月1日 消息:MobileAgent是由阿里巴巴开发的一个自主多模态AI代理,可以模拟人类操作手机,是一个纯视觉解决方案,不需要任何系统代码,完全通过分析图像来理解和操作手机。

image.png

项目地址:https://top.aibase.com/tool/mobile-agent

特点:

  • 依赖于纯视觉解决方案: MobileAgent通过分析图像来理解和操作手机,而无需任何系统代码。这增加了通用性和灵活性,使其能够在没有访问底层代码或数据权限的情况下操作应用。

  • 独立于XML和系统元数据: 不依赖XML文件和系统元数据,提高了通用性和灵活性。

  • 多种视觉感知工具: 使用多种技术进行操作定位,包括文本、图标、按钮等。

  • 即插即用: 无需训练,可直接在不同设备和应用上使用。

MobileAgent能够自动完成各种任务,比如在Alibaba上帮助用户找到帽子,并根据条件添加到购物车,在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐,在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息,在Gmail中发送空邮件或具有特定内容的邮件,在TikTok上为宠物猫视频点赞或评论等,还可以结合使用多个应用完成复杂任务。

MobileAgent的特点包括依赖于纯视觉解决方案,独立于XML和系统元数据,具备多种视觉感知工具进行操作定位,无需探索和训练,即插即用。

其工作原理包括视觉感知工具,自主任务规划和执行,自反思和提示格式。 MobileAgent使用了视觉感知模块、文本和图标定位,自主规划和自反思方法来实现对手机应用的操作。观察、思考和行动是MobileAgent采用的提示格式,要求代理输出三个组成部分。

举报

  • 相关推荐
  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • OPPO首款内置风扇手机!OPPO K13 Turbo跑分出炉:确认骁龙8s Gen4

    这款新机还有一个非常重要的亮点内置风扇手机,这也是OPPO首款自带风扇的手机。 该机后置主摄下方有一个风扇开孔,可以迅速散发内部热量。 风扇模组采用电镀镍工艺,放弃普通喷涂,带来更好的防水、防锈效果,并且号称风力提升120%,从而实现更强、更持久的游戏性能。 第四代骁龙8s的性能大家已经在测试中看到了,采用4nm打造,全大核方案,安兔兔跑分能突破240万�

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • 全球第一家把骁龙8 Gen3手机处理器用到车上:小米YU7是怎么做到的

    众所周知,按照传统认知,车规级芯片和手机芯片有本质区别,因为汽车面临的使用环境要比手机复杂、严苛的多。一般来说,手机芯片是无法满足车规级车机芯片需求的轻则死机、卡顿,重则造成系统无法运转。 那小米是怎么做到的呢? 据了解,最新上市的小米YU7配备四合一域控制模块,内置ADD辅助驾驶域控制器、T-Box通讯模块、DCD座舱域控制器、VCCD整车域控制器。