首页 > 业界 > 关键词  > 正文

MM-Navigator:基于GPT-4V系统,会使用iPhone并在亚马逊上购物

2023-11-15 13:54 · 稿源:站长之家

**划重点:**

1. 🌐 GPT-4V代理通过图像处理和基于文本的推理,能够在智能手机GUI中导航和购物。

2. 🛠️ MM-Navigator,由GPT-4V模型支持,利用创新技术解决了智能手机应用程序界面导航的复杂性。

3. 🤔 尽管在执行任务和理解用户指令方面取得高准确度,但MM-Navigator仍然面临处理多样化和动态界面元素的挑战。

在智能手机技术的不断发展中,对于能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。这超越了简单的自动化,需要一种能够理解GUI并执行类似于人类的任务的AI。

一项新研究介绍了MM-Navigator,这是一个由GPT-4V代理构建的系统,旨在满足这一挑战。该系统的开发者旨在将AI的能力与智能手机应用程序的复杂工作相连接。

MM-Navigator系统的核心是GPT-4V模型,结合了新颖的提示技术,以实现对屏幕位置的精确控制。GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入,然后生成描述下一步操作的文本输出。为了允许在屏幕的精确区域进行点击,研究人员在屏幕图像中的每个可交互元素(如按钮和图标)上添加了编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签,从而索引特定的屏幕位置。

实验结果

为了评估MM-Navigator系统,研究人员对其进行了iOS屏幕和他们自己收集的指令的测试,以及一个包含Android设备屏幕和动作的公开数据集的测试。在单操作指令的iOS屏幕上,人类评估发现,预期操作的自然语言描述在91%的情况下是合理的。数字标签选择的实际屏幕位置在75%的情况下是正确的,显示出良好但不完美的视觉基础能力。

image.png

MM-Navigator 能够熟练地处理多步骤场景,这体现在它能够协助完成产品采购等任务。一个例子是他们让代理商在亚马逊上购买奶泡器!该系统成功地通过各种应用程序和界面来实现这一目标,甚至将预算控制在50-100美元之间。下图取自论文,详细展示了它的工作原理。

局限

尽管MM-Navigator在处理多步骤场景方面表现出色,例如在购物过程中帮助用户购买商品,但研究者们也指出了一些限制和错误情况。

在本文的“错误分析”部分,作者检查了 GPT-4V 在预测图形用户界面 (GUI) 内的用户操作时所犯的错误类型。漏报,这些错误通常源于数据集或注释过程的问题。在某些情况下,GPT-4V 的预测是正确的,但由于标记集注释解析不准确或数据集注释不完善而被标记为不正确。当 GUI 中的目标区域过度分割或存在多个有效操作但注释仅将其中一个识别为正确时,经常会出现这种情况。

还有些错误归因于 GPT-4V 零样本测试方法的局限性。如果没有示例来指导其对用户操作模式的理解,该模型往往更喜欢点击而不是滚动,从而导致决策与典型的人类行为不一致。例如,GPT-4V 可能会尝试在可见选项卡中查找选项,而不是向下滚动以获取更多选项。它还可能点击非交互式元素或过于字面地解释指令,从而导致不适当的操作。

image.png

总的来说,MM-Navigator代表了AI在导航和与智能手机界面交互方面的一次有趣的飞跃。尽管在理解用户指令和执行任务方面表现出高准确度,但它仍然面临处理多样化和动态界面元素的挑战。

该系统的发展和测试突显了为实现这种复杂交互能力而创建的AI模型的复杂性,并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展,这项技术可能在自动化QA测试、帮助残障人士,甚至在我们忙于其他工作时为我们在手机上完成任务方面发挥各种用途。看起来很有趣!

举报

  • 相关推荐
  • iPhone 18 Pro迎双重升级:主摄和长焦脱胎换骨

    iPhone 18 Pro系列影像将迎来双重升级。 首先是主摄,爆料称iPhone 18 Pro系列主摄支持可变光圈,这将是苹果史上第一款支持可变光圈的机型。 据悉,可变光圈技术是通过物理调节镜头光圈大小来控制相机传感器的进光量。在暗光环境下,光圈开大能接收更多光线;在明亮场景中,光圈缩小防止过度曝光。这项技术的核心优势在于让用户能够像使用专业相机一样,自主选择光圈�

  • M6 iPad Pro将加入VC散热:向iPhone 17 Pro看齐

    随着芯片性能的不断提升,苹果计划为iPad Pro配备VC散热系统,消费者最快会在M6 iPad Pro上看到。 Mark Gurman指出,如果iPhone与iPad Pro配备VC散热系统的尝试取得成功,苹果后续可能会将该技术应用到MacBook Air等其他被动散热设备上。 目前苹果对iPad Pro的更新周期约为18个月,因此下一代iPad Pro预计将在2027年春季发布。

  • 20周年款iPhone将配自研相机 并搭载自研定制LOFIC传感器

    为庆祝iPhone诞生20周年,苹果计划推出特别版机型。该机将首次搭载苹果定制图像传感器及LOFIC技术,通过横向溢出积分电容收集溢出光电子,有效避免高光过曝,显著提升动态范围和光影还原能力。今年7月苹果已提交相关专利,目前正优化原型机。相比传统索尼双层传感器,新技术集成度更高、占用空间更小,有望为iPhone影像系统带来突破性提升。

  • 最便宜苹果手机!iPhone 17e明年见:依旧是60Hz屏

    明年上半年苹果将推出iPhone 17e,该机将采用60Hz屏幕,形态升级为灵动岛,这将是苹果最便宜的机型。 对比iPhone 16e,iPhone 17e最大变化是屏幕由之前的刘海屏升级为灵动岛屏幕,从iPhone 17e开始,刘海屏彻底在苹果手机上彻底退出,不过刷新率依然是60Hz。 不止于此,iPhone 17e将搭载iPhone 17同款A19芯片,

  • 国补1929元起!联想moto X70 Air预售:比iPhone Air更轻更薄

    联想moto X70 Air将于10月31日发布,新机目前已在联想商城、京东等电商平台开启预售。 据了解,联想moto X70 Air提供12GB 256GB、12GB 512GB两个版本,上市价分别为2599元和2899元。 联想moto手机京东自营旗舰店显示,联想moto X70 Air券后叠加国补到手价为1929元、2189元。

  • iPhone18发布或推迟 苹果明年9月只发Pro系列和Fold折叠屏

    苹果将调整iPhone发布策略,从今年起实施一年两次的新机发布计划,以填补上半年空档期,应对中国市场份额持续下滑。具体规划包括:2025年下半年推四款iPhone17系列;2026年9月发布iPhone18 Pro系列及首款折叠屏手机;2027年上半年推出iPhone18标准版。其中iPhone18 Pro系列将升级可变光圈和4800万潜望长焦镜头,强化高端市场竞争力。这一调整旨在通过增加发布频率保持市场关注度。

  • 告别8GB时代!iPhone 18将升级为12GB内存:苹果已提前采购

    今年9月苹果发布的四款iPhone中,有三款均搭载12GB内存,仅iPhone 17标准版配备8GB内存。 韩国最新一份报告指出,iPhone 18标准版内存将提升至12GB,不过消费者需等到2027年上半年才能入手这款手机。 据媒体报道,苹果已开始从三星采购LPDDR5X内存,此举旨在保障iPhone 18系列的内存供应,避免人工智能企业的需求压力影响到苹果,消息称苹果已向三星预购1300万套LPDDR5X内存。 苹果�

  • 10月29日锁定京东采销直播间 京东11.11“超级直播日”iPhone 17 Pro Max五折秒杀

    10月29日京东“超级直播日”开启,百大品牌总裁、京东采销和严选达人将进行24小时不间断直播,狂撒上亿红包,带来爆品闪降活动。活动期间,品牌总裁空降直播间推出5折闪购,消费者可参与9.9元抢购SK-II神仙水等限量福利。直播还结合重阳节发起助老公益行动,联合品牌为养老院捐赠百万物资。各垂类直播间推出专属优惠,如iPhone 17 Pro Max五折秒杀、Switch2直降500元等,满足不同消费需求。用户可通过京东APP搜索“总裁价到”预约观看,体验有温度、有实惠的购物盛宴。

  • iQOO 15单品销量冲上京东安卓阵营TOP1:比iPhone 17还火爆

    iQOO产品经理戈蓝晒出了京东单品热卖榜,榜单显示iQOO15销量冲上单品榜TOP3,在iPhone17Pro Max和iPhone17Pro之下,但在iPhone17之上,销量位居京东安卓单品第一。 戈蓝表示,跨代领先的未来性能旗舰iQOO15持续热销中,欢迎大家选购,果子太强了,还要继续加油。 据悉,iQOO15首发2K三星珠峰屏,这块屏幕首发2KLEADOLED和M14发光材料以及众多全新护眼科技,由iQOO与三星深度联合开发,实

  • 苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

    苹果A20系列芯片将首次采用台积电2nm工艺,包含标准版与Pro版。最大突破在于内存集成设计:RAM直接与CPU/GPU集成在同一晶圆,使芯片尺寸缩小15%-20%,数据传输效率提升,尤其优化AI与游戏性能。2nm工艺相比3nm性能提升10%-15%或功耗降低30%。搭载计划显示:2026年9月iPhone 18 Pro/Max及首款折叠屏机型将采用A20 Pro;2027年标准版iPhone 18/18e则使用A20标准版,打破以往同步发布惯例。因2nm初期良率约65%-70%,苹果需通过分批投产平衡产能与成本。

今日大家都在搜的词: