首页 > 业界 > 关键词  > GPT-4V最新资讯  > 正文

研究人员教会GPT-4V使用iPhone并在亚马逊应用程序上购物

2023-11-15 10:01 · 稿源:站长之家

要点:

1. 《MM-Navigator》是基于GPT-4V的智能代理,通过图像处理和文本推理结合,使其能够在iPhone上执行购物任务。

2. GPT-4V的关键创新在于同时处理图像和文本,使得AI系统能够直接处理真实的智能手机界面截图,而不仅仅是处理文本描述。

3. MM-Navigator在处理多步骤场景方面表现出色,例如成功地在Amazon应用上购买商品,展示了其在理解和与多个界面交互方面的潜力。

站长之家(ChinaZ.com)11月15日 消息:在当今智能手机技术不断发展的世界中,对能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。MM-Navigator通过使用GPT-4V代理来满足这一需求,该代理结合了图像处理和文本推理,使其能够在iPhone上执行购物任务。本文将着重介绍MM-Navigator的技术能力,特别是其对GPT-4V的应用。我们将探讨它如何解释屏幕,决定动作,并与移动应用程序进行准确的交互。同时,我们将关注GPT-4V的关键特性,屏幕理解和动作决策的创新方法,以及实现准确、上下文敏感的应用程序交互的策略。通过这些分析,我们将突显MM-Navigator如何显著缩小了人工智能潜力与智能手机应用功能复杂性之间的差距。

image.png

多年来,科学家们一直追求能够像人类一样与计算设备交互并遵循自然语言指令的AI助手目标。随着智能手机的广泛采用,虚拟助手如Apple的Siri变得更加普遍,但它们的能力仍然有限。实现能够执行复杂多步骤任务的智能助手需要在AI模型理解和操作复杂应用程序界面方面取得重大进展。

近年来,AI领域的进展主要是由类似GPT-4的大型语言模型(LLMs)推动的。然而,要控制像智能手机这样的真实设备,AI系统需要超越仅仅处理文本的范畴。它还必须能够解释屏幕上显示的复杂视觉界面,然后执行精确的物理操作,如点击特定按钮或滚动菜单。早期尝试将智能手机截图转换为文本描述,然后将该文本馈入语言模型。然而,这种方法丧失了很多重要的布局和视觉关系信息,这对于识别与之交互的正确界面元素至关重要。

但现在,GPT-4V应运而生!它能够摄取并理解图像和文本的结合。这一发展使得AI系统能够直接处理真实的智能手机界面截图,理解各个组件,并确定智能的操作,而无需将输入简化为仅文本。然而,在将大型多模型模型(LMMs,与LLMs不同)应用于设备控制任务方面仍然存在重大挑战。模型需要能够智能生成一系列的动作,以视觉屏幕输入和提供的文本指令为条件。然后,它必须能够通过点击或点击屏幕上特定区域来精确执行每个动作,这些区域对应于按钮或菜单。这个对于推理复杂界面并产生精确的本地化动作的复杂性使得这成为一个极其困难的问题。MM-Navigator正试图解决这个问题。

MM-Navigator系统由GPT-4V模型和新颖的提示技术组成,以实现对屏幕位置的精确定位。在高层次上,GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入。然后,它产生描述下一步动作的文本输出。为了允许点击屏幕的精确区域,研究人员首先在屏幕图像中的每个交互元素(如按钮和图标)上添加编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签,索引特定的屏幕位置。

由于提供所有过去图像和动作的完整历史会带来计算上的问题,所以在每个步骤中,提示提供了关键过去事件和上下文的自然语言总结。这种自我总结提供了对交互历史的有效近似。GPT-4V的输出文本包含动作的高级自然语言描述,例如“点击发送按钮”,以及像“[Action: Tap, Location: (12)]”这样的数字标签。这种双重输出允许既有人类可读的描述,又有在实际智能手机界面上执行点击或滚动动作的精确坐标。

为了评估MM-Navigator系统,研究人员对两个数据集进行了测试:一个包含他们自己收集的iOS屏幕和指令的数据集,以及一个包含Android设备屏幕和动作的公开数据集。在包含单一动作指令的iOS屏幕上,人类评估发现预期动作的自然语言描述在91%的情况下是合理的。由数字标签选择的实际屏幕位置在75%的情况下是正确的,表明具有良好但不完美的视觉基础能力。

MM-Navigator在处理多步骤场景方面的熟练表现在于其在协助购物等任务中的能力。在论文中,一个例子吸引了我,他们让代理在Amazon上购买了一台奶泡机!该系统成功地在各种应用程序和界面中导航,甚至保持在50-100美元的预算范围内。这张图片摘自论文,详细展示了它的工作原理。在这种情况下,MM-Navigator解释了用户的文本指令和智能手机屏幕上的视觉元素。然后,它确定完成购买所需的动作序列。这可能涉及在购物应用程序中搜索产品,根据价格和产品规格应用过滤器,选择适当的项目,并引导用户完成结账过程。

这展示了MM-Navigator处理复杂、序列任务的能力,这些任务需要理解和与多个界面交互。它不仅展示了该系统在执行单个、孤立动作方面的潜力,还展示了其在管理一系列互相关联步骤方面的潜力,这与人类使用智能手机应用程序完成实际任务的方式相似。

然而,MM-Navigator也存在许多错误情况。在论文的“错误分析”部分,作者们审查了GPT-4V在预测图形用户界面(GUIs)中用户动作时所犯的错误类型。他们确定了两类主要错误:假阴性和真阴性。假阴性通常是由于数据集或注释过程的问题。在某些情况下,GPT-4V的预测是正确的,但由于Set-of-Mark注释解析的不准确或数据集注释不完美而被标记为错误。

这种情况经常发生在GUIs中的目标区域被过度分割或存在多个有效动作的情况下,但注释只认定一个为正确。真阴性错误归因于GPT-4V的零样本测试方法的局限性。由于缺乏示例来指导其对用户动作模式的理解,该模型倾向于点击而不是滚动,导致与典型人类动作不符的决策。例如,GPT-4V可能试图在可见选项卡中找到选项,而不是向下滚动以获取更多选项。它还可能点击不可交互的元素,或者过于字面地解释指令,导致不适当的动作。

总的来说,由GPT-4V模型驱动的MM-Navigator在AI导航和与智能手机界面交互的能力方面取得了有趣的进展。它将大型多模型模型的先进功能与创新技术结合起来,以解释和在移动应用中执行动作。虽然它在理解用户指令和执行任务方面表现出高准确性,但仍然存在挑战,特别是在处理多样化和动态界面元素以及确保与人类行为一致的准确决策方面。

该系统的开发和测试突显了创建能够进行如此复杂交互的AI模型的复杂性,并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展,我能看到这项技术有各种用途 - 自动化QA测试,帮助残障人士,甚至在我们忙于其他工作时为我们完成手机上的任务。看起来很有趣!

举报

  • 相关推荐
  • 如何在 iPhone 上静音陌生来电?

    你是否总是被一些陌生号码的来电打扰呢?是否想找到一个“静音应对”的方法?如果是的话,那这篇文章就是写给你的了……

  • 3582元!特朗普手机T1 Phone发布:土豪金色 后摄神似iPhone

    今日,特朗普集团宣布推出名为特朗普移动(Trump Mobile)的自有品牌移动网络服务,同时发布T1 Phone智能手机。 T1 Phone将在美国制造,售价499美元(约合3582元人民币),预购需支付100美元首付,将于9月上市。 外观设计上,T1 Phone采用土豪金配色,机身背部印有T1标识和美国国旗,摄像头采用圆角矩形三圆布局,设计类似iPhone后摄。 据了解,T1 Phone采用12GB 256GB存储组合,正面为6.

  • 曝iPhone 17配备A18+8G内存:性能没有升级

    iPhone17标准版将搭载与iPhone16相同的A18芯片(基于台积电第二代3nm制程打造),同时配备8GB内存,这与iPhone16的配置保持一致。 值得关注的是,超薄机型iPhone17Air将配备A19芯片,iPhone17Pro系列则会搭载A19Pro芯片,这两款芯片都将采用台积电第三代3纳米制程(N3P)。

  • 曝iPhone 17 Pro采用拼接材质:苹果史上变化最大的手机

    博主定焦数码爆料称,iPhone 17 Pro系列确定采用拼接材质,背部中间区域为玻璃,周围为金属,这种设计的目的是支持无线充。 结合之前曝光的渲染图,iPhone 17 Pro系列的外观基本确定,正面是传统的灵动岛形态,中框为金属直角边设计,配有独立的拍照按键,背部是横向大矩阵DECO,后盖材质由玻璃和金属两种材料拼接而成,这是苹果史上变化最大的机型。

  • iPhone 17标准版加入新配色:用户一眼就能认出是新款

    博主Majin Bu在社交平台上透露,苹果为iPhone 17标准版加入了新配色。 据爆料,iPhone 17标准版正在测试绿色和紫色两种配色,这两款颜色只有一种会进入量产阶段,苹果最终有可能会选择紫色。 目前iPhone 16标准版共提供了5种配色,分别是群青色、深青色、粉色、白色和黑色,如果iPhone 17加入紫色,那么凭借新配色,其辨识度也将会拉满。

  • 苹果终于良心一次!iPhone 17确认全系高刷

    据博主数码闲聊站最新爆料,iPhone 17已经确认全系配备高刷屏。 这是苹果历史上第一次为标准版引入高刷,对于标准版来说堪称史诗级提升,日常体验大大提升。

  • iPhone 17 或将支持 50W 无线快充

    MagSafe 与 Qi2.2 标准将引领新一代充电体验……

  • 曝三款iPhone被苹果淘汰:无缘升级iOS 26

    苹果宣布WWDC25全球开发者大会将于北京时间6月10日凌晨1点举办,本次大会的重头戏是iOS 26。 据爆料,iOS 26适配机型里不包括iPhone XS、iPhone XS Max和iPhone XR,这三款机型将永久停留在iOS 18,尽管不能获得大版本更新,但是苹果还会推送安全补丁更新,持续维护这些老机型。 这次iOS 26将融入visionOS的空间计算理念,核心图标与交互组件会采用半透明材质,这不仅增强

  • vivo X Fold5官宣:史上最轻大折叠 比iPhone更轻

    vivo产品经理韩伯啸宣布,vivo X Fold5将在本月正式发布,这将是史上最轻的大折叠屏。 根据官方公布的预热视频,将vivo X Fold5和vivo X Fold3放在天平上,放在右盘的vivo X Fold3迅速下沉,表明X Fold5的重量更轻。 韩伯啸介绍,去年3月,vivo X Fold3凭借219g全球最轻的重量成为了2024年爆款大折叠,如今打破X Fold3全球最轻纪录的vivo X Fold5来了,除此之外,X Fold5的品质也将全面升级,还将

  • 苹果为极致轻薄妥协太多:iPhone 17 Air前摄被迫挪位

    苹果今年将推出iPhone 17 Air取代Plus系列,该机主打超薄机身,厚度只有5.5mm左右。 需要注意的是,这款机型为了极致的轻薄做出了很多妥协。 根据最新曝光的iPhone 17系列贴膜显示,iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max三款机型与前几代一致,都保持前摄开孔靠右,只有iPhone 17 Air开口偏向左侧。 推测这应该是苹果为了轻薄调整了内部结构,不得已将前摄开孔挪位。