首页 > 业界 > 关键词  > 正文

MM-Navigator:基于GPT-4V系统,会使用iPhone并在亚马逊上购物

2023-11-15 13:54 · 稿源:站长之家

**划重点:**

1. 🌐 GPT-4V代理通过图像处理和基于文本的推理,能够在智能手机GUI中导航和购物。

2. 🛠️ MM-Navigator,由GPT-4V模型支持,利用创新技术解决了智能手机应用程序界面导航的复杂性。

3. 🤔 尽管在执行任务和理解用户指令方面取得高准确度,但MM-Navigator仍然面临处理多样化和动态界面元素的挑战。

在智能手机技术的不断发展中,对于能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。这超越了简单的自动化,需要一种能够理解GUI并执行类似于人类的任务的AI。

一项新研究介绍了MM-Navigator,这是一个由GPT-4V代理构建的系统,旨在满足这一挑战。该系统的开发者旨在将AI的能力与智能手机应用程序的复杂工作相连接。

MM-Navigator系统的核心是GPT-4V模型,结合了新颖的提示技术,以实现对屏幕位置的精确控制。GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入,然后生成描述下一步操作的文本输出。为了允许在屏幕的精确区域进行点击,研究人员在屏幕图像中的每个可交互元素(如按钮和图标)上添加了编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签,从而索引特定的屏幕位置。

实验结果

为了评估MM-Navigator系统,研究人员对其进行了iOS屏幕和他们自己收集的指令的测试,以及一个包含Android设备屏幕和动作的公开数据集的测试。在单操作指令的iOS屏幕上,人类评估发现,预期操作的自然语言描述在91%的情况下是合理的。数字标签选择的实际屏幕位置在75%的情况下是正确的,显示出良好但不完美的视觉基础能力。

image.png

MM-Navigator 能够熟练地处理多步骤场景,这体现在它能够协助完成产品采购等任务。一个例子是他们让代理商在亚马逊上购买奶泡器!该系统成功地通过各种应用程序和界面来实现这一目标,甚至将预算控制在50-100美元之间。下图取自论文,详细展示了它的工作原理。

局限

尽管MM-Navigator在处理多步骤场景方面表现出色,例如在购物过程中帮助用户购买商品,但研究者们也指出了一些限制和错误情况。

在本文的“错误分析”部分,作者检查了 GPT-4V 在预测图形用户界面 (GUI) 内的用户操作时所犯的错误类型。漏报,这些错误通常源于数据集或注释过程的问题。在某些情况下,GPT-4V 的预测是正确的,但由于标记集注释解析不准确或数据集注释不完善而被标记为不正确。当 GUI 中的目标区域过度分割或存在多个有效操作但注释仅将其中一个识别为正确时,经常会出现这种情况。

还有些错误归因于 GPT-4V 零样本测试方法的局限性。如果没有示例来指导其对用户操作模式的理解,该模型往往更喜欢点击而不是滚动,从而导致决策与典型的人类行为不一致。例如,GPT-4V 可能会尝试在可见选项卡中查找选项,而不是向下滚动以获取更多选项。它还可能点击非交互式元素或过于字面地解释指令,从而导致不适当的操作。

image.png

总的来说,MM-Navigator代表了AI在导航和与智能手机界面交互方面的一次有趣的飞跃。尽管在理解用户指令和执行任务方面表现出高准确度,但它仍然面临处理多样化和动态界面元素的挑战。

该系统的发展和测试突显了为实现这种复杂交互能力而创建的AI模型的复杂性,并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展,这项技术可能在自动化QA测试、帮助残障人士,甚至在我们忙于其他工作时为我们在手机上完成任务方面发挥各种用途。看起来很有趣!

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天