首页 > 业界 > 关键词  > 正文

MM-Navigator:基于GPT-4V系统,会使用iPhone并在亚马逊上购物

2023-11-15 13:54 · 稿源:站长之家

**划重点:**

1. 🌐 GPT-4V代理通过图像处理和基于文本的推理,能够在智能手机GUI中导航和购物。

2. 🛠️ MM-Navigator,由GPT-4V模型支持,利用创新技术解决了智能手机应用程序界面导航的复杂性。

3. 🤔 尽管在执行任务和理解用户指令方面取得高准确度,但MM-Navigator仍然面临处理多样化和动态界面元素的挑战。

在智能手机技术的不断发展中,对于能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。这超越了简单的自动化,需要一种能够理解GUI并执行类似于人类的任务的AI。

一项新研究介绍了MM-Navigator,这是一个由GPT-4V代理构建的系统,旨在满足这一挑战。该系统的开发者旨在将AI的能力与智能手机应用程序的复杂工作相连接。

MM-Navigator系统的核心是GPT-4V模型,结合了新颖的提示技术,以实现对屏幕位置的精确控制。GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入,然后生成描述下一步操作的文本输出。为了允许在屏幕的精确区域进行点击,研究人员在屏幕图像中的每个可交互元素(如按钮和图标)上添加了编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签,从而索引特定的屏幕位置。

实验结果

为了评估MM-Navigator系统,研究人员对其进行了iOS屏幕和他们自己收集的指令的测试,以及一个包含Android设备屏幕和动作的公开数据集的测试。在单操作指令的iOS屏幕上,人类评估发现,预期操作的自然语言描述在91%的情况下是合理的。数字标签选择的实际屏幕位置在75%的情况下是正确的,显示出良好但不完美的视觉基础能力。

image.png

MM-Navigator 能够熟练地处理多步骤场景,这体现在它能够协助完成产品采购等任务。一个例子是他们让代理商在亚马逊上购买奶泡器!该系统成功地通过各种应用程序和界面来实现这一目标,甚至将预算控制在50-100美元之间。下图取自论文,详细展示了它的工作原理。

局限

尽管MM-Navigator在处理多步骤场景方面表现出色,例如在购物过程中帮助用户购买商品,但研究者们也指出了一些限制和错误情况。

在本文的“错误分析”部分,作者检查了 GPT-4V 在预测图形用户界面 (GUI) 内的用户操作时所犯的错误类型。漏报,这些错误通常源于数据集或注释过程的问题。在某些情况下,GPT-4V 的预测是正确的,但由于标记集注释解析不准确或数据集注释不完善而被标记为不正确。当 GUI 中的目标区域过度分割或存在多个有效操作但注释仅将其中一个识别为正确时,经常会出现这种情况。

还有些错误归因于 GPT-4V 零样本测试方法的局限性。如果没有示例来指导其对用户操作模式的理解,该模型往往更喜欢点击而不是滚动,从而导致决策与典型的人类行为不一致。例如,GPT-4V 可能会尝试在可见选项卡中查找选项,而不是向下滚动以获取更多选项。它还可能点击非交互式元素或过于字面地解释指令,从而导致不适当的操作。

image.png

总的来说,MM-Navigator代表了AI在导航和与智能手机界面交互方面的一次有趣的飞跃。尽管在理解用户指令和执行任务方面表现出高准确度,但它仍然面临处理多样化和动态界面元素的挑战。

该系统的发展和测试突显了为实现这种复杂交互能力而创建的AI模型的复杂性,并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展,这项技术可能在自动化QA测试、帮助残障人士,甚至在我们忙于其他工作时为我们在手机上完成任务方面发挥各种用途。看起来很有趣!

举报

  • 相关推荐
  • 史上变化最大iPhone!曝iPhone17苹果Logo位置改变:继续下移

    在外观设计方面,iPhone17Pro系列将采用横向大矩阵DECO。后置三摄被安排在左侧,闪光灯和LIDAR激光雷达扫描仪则位于矩阵相机右侧,整体外观与小米11Ultra有几分相似。 核心配置上,iPhone17Pro系列也有显著升级。该系列将首次配备12GB内存,并搭载全新的A19Pro芯片。与A18和A18Pro芯片相比,A19系列芯片将采用台积电第三代3nm制程N3P工艺。据相关数据,在相同功耗条件下,N3P工艺能使

  • 如何在 iPhone 上静音陌生来电?

    你是否总是被一些陌生号码的来电打扰呢?是否想找到一个“静音应对”的方法?如果是的话,那这篇文章就是写给你的了……

  • 3582元!特朗普手机T1 Phone发布:土豪金色 后摄神似iPhone

    今日,特朗普集团宣布推出名为特朗普移动(Trump Mobile)的自有品牌移动网络服务,同时发布T1 Phone智能手机。 T1 Phone将在美国制造,售价499美元(约合3582元人民币),预购需支付100美元首付,将于9月上市。 外观设计上,T1 Phone采用土豪金配色,机身背部印有T1标识和美国国旗,摄像头采用圆角矩形三圆布局,设计类似iPhone后摄。 据了解,T1 Phone采用12GB 256GB存储组合,正面为6.

  • 曝折叠屏iPhone已进入P1原型阶段:明年上市

    据供应链消息,折叠屏iPhone于6月份进入P1(Prototype 1)原型开发阶段,预计2025年底走完P1-P3整个开发流程。 然后再进入EVT(Engineering Verification Test)阶段,该阶段是工程样品验证测试,主要测试项目包括基本的功能测试、参数测量和一些规范验证,主要目标是确保能满足苹果设计要求和规范。 在P1到P3阶段,供应链会进行小量试产,再交由iPhone主力组装厂鸿海、和硕进行组装�

  • 曝iPhone 17 Pro Logo下移:MagSafe要重新调整

    博主Majin Bu爆料称,iPhone 17 Pro和iPhone 17 Pro Max的苹果Logo下移,手机壳制造商也不得不重新调整MagSafe磁铁的位置。 据制造商透露,随着iPhone 17 Pro苹果Logo位置下移,磁铁阵列也向中心底部偏移,如果不调整就会出现MagSafe磁铁跟苹果Logo重叠的情况,影响美观。 此次调整主要是提升美观度,但是对配件制造商来说,磁铁位置的调整就需要对磁场再度进行校准,以避免细微干扰。

  • 曝20周年iPhone首发LTPO 3面板:手机屏幕迎来跨越式升级

    为纪念iPhone诞生20周年,苹果准备在2027年推出一款革命性产品。 据媒体报道,苹果计划为2027年iPhone配备全新的LTPO 3显示屏,这块屏幕采用全新氧化物半导体显示技术,通过重构屏幕晶体管架构来大幅提升续航能力。尤其是在1Hz息屏显示场景,LTPO 3屏幕能大幅降低功耗。 为此苹果制定了技术演进路线图:2025年的iPhone 17系列全部标配LTPO 2屏幕;2027年至少有一款机型将首发LTPO 3�

  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。

  • 5.5mm苹果史上最薄!iPhone 17 Air最新外观出炉:6.6英寸高刷屏+单摄

    海外博主fpt.带来了最新版本的iPhone 17 Air全方位渲染图,展示了这款苹果史上最薄手机的外观细节。 这是一款新增机型,将取代目前的Plus版本,依然有着相对标准版更大的屏幕,但主打亮点不再是单纯的大屏,而是5.5mm的超薄机身。 该机将搭载6.6英寸的OLED屏幕,刷新率为120Hz,这是苹果第一次为非Pro机型配备高刷,预计标准版也会下放,堪称史诗升级。 作为对比,目前的iPh

  • iPhone 17标准版加入新配色:用户一眼就能认出是新款

    博主Majin Bu在社交平台上透露,苹果为iPhone 17标准版加入了新配色。 据爆料,iPhone 17标准版正在测试绿色和紫色两种配色,这两款颜色只有一种会进入量产阶段,苹果最终有可能会选择紫色。 目前iPhone 16标准版共提供了5种配色,分别是群青色、深青色、粉色、白色和黑色,如果iPhone 17加入紫色,那么凭借新配色,其辨识度也将会拉满。

  • 苹果终于良心一次!iPhone 17确认全系高刷

    据博主数码闲聊站最新爆料,iPhone 17已经确认全系配备高刷屏。 这是苹果历史上第一次为标准版引入高刷,对于标准版来说堪称史诗级提升,日常体验大大提升。