研究人员教会GPT-4V使用iPhone并在亚马逊应用程序上购物

2023-11-15 10:01 · 稿源：站长之家

要点:
1. 《MM-Navigator》是基于GPT-4V的智能代理，通过图像处理和文本推理结合，使其能够在iPhone上执行购物任务。
2. GPT-4V的关键创新在于同时处理图像和文本，使得AI系统能够直接处理真实的智能手机界面截图，而不仅仅是处理文本描述。
3. MM-Navigator在处理多步骤场景方面表现出色，例如成功地在Amazon应用上购买商品，展示了其在理解和与多个界面交互方面的潜力。

站长之家（ChinaZ.com）11月15日消息:在当今智能手机技术不断发展的世界中，对能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。MM-Navigator通过使用GPT-4V代理来满足这一需求，该代理结合了图像处理和文本推理，使其能够在iPhone上执行购物任务。本文将着重介绍MM-Navigator的技术能力，特别是其对GPT-4V的应用。我们将探讨它如何解释屏幕，决定动作，并与移动应用程序进行准确的交互。同时，我们将关注GPT-4V的关键特性，屏幕理解和动作决策的创新方法，以及实现准确、上下文敏感的应用程序交互的策略。通过这些分析，我们将突显MM-Navigator如何显著缩小了人工智能潜力与智能手机应用功能复杂性之间的差距。

多年来，科学家们一直追求能够像人类一样与计算设备交互并遵循自然语言指令的AI助手目标。随着智能手机的广泛采用，虚拟助手如Apple的Siri变得更加普遍，但它们的能力仍然有限。实现能够执行复杂多步骤任务的智能助手需要在AI模型理解和操作复杂应用程序界面方面取得重大进展。

近年来，AI领域的进展主要是由类似GPT-4的大型语言模型（LLMs）推动的。然而，要控制像智能手机这样的真实设备，AI系统需要超越仅仅处理文本的范畴。它还必须能够解释屏幕上显示的复杂视觉界面，然后执行精确的物理操作，如点击特定按钮或滚动菜单。早期尝试将智能手机截图转换为文本描述，然后将该文本馈入语言模型。然而，这种方法丧失了很多重要的布局和视觉关系信息，这对于识别与之交互的正确界面元素至关重要。

但现在，GPT-4V应运而生!它能够摄取并理解图像和文本的结合。这一发展使得AI系统能够直接处理真实的智能手机界面截图，理解各个组件，并确定智能的操作，而无需将输入简化为仅文本。然而，在将大型多模型模型（LMMs，与LLMs不同）应用于设备控制任务方面仍然存在重大挑战。模型需要能够智能生成一系列的动作，以视觉屏幕输入和提供的文本指令为条件。然后，它必须能够通过点击或点击屏幕上特定区域来精确执行每个动作，这些区域对应于按钮或菜单。这个对于推理复杂界面并产生精确的本地化动作的复杂性使得这成为一个极其困难的问题。MM-Navigator正试图解决这个问题。

MM-Navigator系统由GPT-4V模型和新颖的提示技术组成，以实现对屏幕位置的精确定位。在高层次上，GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入。然后，它产生描述下一步动作的文本输出。为了允许点击屏幕的精确区域，研究人员首先在屏幕图像中的每个交互元素（如按钮和图标）上添加编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签，索引特定的屏幕位置。

由于提供所有过去图像和动作的完整历史会带来计算上的问题，所以在每个步骤中，提示提供了关键过去事件和上下文的自然语言总结。这种自我总结提供了对交互历史的有效近似。GPT-4V的输出文本包含动作的高级自然语言描述，例如“点击发送按钮”，以及像“[Action: Tap， Location: （12）]”这样的数字标签。这种双重输出允许既有人类可读的描述，又有在实际智能手机界面上执行点击或滚动动作的精确坐标。

为了评估MM-Navigator系统，研究人员对两个数据集进行了测试:一个包含他们自己收集的iOS屏幕和指令的数据集，以及一个包含Android设备屏幕和动作的公开数据集。在包含单一动作指令的iOS屏幕上，人类评估发现预期动作的自然语言描述在91%的情况下是合理的。由数字标签选择的实际屏幕位置在75%的情况下是正确的，表明具有良好但不完美的视觉基础能力。

MM-Navigator在处理多步骤场景方面的熟练表现在于其在协助购物等任务中的能力。在论文中，一个例子吸引了我，他们让代理在Amazon上购买了一台奶泡机!该系统成功地在各种应用程序和界面中导航，甚至保持在50-100美元的预算范围内。这张图片摘自论文，详细展示了它的工作原理。在这种情况下，MM-Navigator解释了用户的文本指令和智能手机屏幕上的视觉元素。然后，它确定完成购买所需的动作序列。这可能涉及在购物应用程序中搜索产品，根据价格和产品规格应用过滤器，选择适当的项目，并引导用户完成结账过程。

这展示了MM-Navigator处理复杂、序列任务的能力，这些任务需要理解和与多个界面交互。它不仅展示了该系统在执行单个、孤立动作方面的潜力，还展示了其在管理一系列互相关联步骤方面的潜力，这与人类使用智能手机应用程序完成实际任务的方式相似。

然而，MM-Navigator也存在许多错误情况。在论文的“错误分析”部分，作者们审查了GPT-4V在预测图形用户界面（GUIs）中用户动作时所犯的错误类型。他们确定了两类主要错误:假阴性和真阴性。假阴性通常是由于数据集或注释过程的问题。在某些情况下，GPT-4V的预测是正确的，但由于Set-of-Mark注释解析的不准确或数据集注释不完美而被标记为错误。

这种情况经常发生在GUIs中的目标区域被过度分割或存在多个有效动作的情况下，但注释只认定一个为正确。真阴性错误归因于GPT-4V的零样本测试方法的局限性。由于缺乏示例来指导其对用户动作模式的理解，该模型倾向于点击而不是滚动，导致与典型人类动作不符的决策。例如，GPT-4V可能试图在可见选项卡中找到选项，而不是向下滚动以获取更多选项。它还可能点击不可交互的元素，或者过于字面地解释指令，导致不适当的动作。

总的来说，由GPT-4V模型驱动的MM-Navigator在AI导航和与智能手机界面交互的能力方面取得了有趣的进展。它将大型多模型模型的先进功能与创新技术结合起来，以解释和在移动应用中执行动作。虽然它在理解用户指令和执行任务方面表现出高准确性，但仍然存在挑战，特别是在处理多样化和动态界面元素以及确保与人类行为一致的准确决策方面。

该系统的开发和测试突显了创建能够进行如此复杂交互的AI模型的复杂性，并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展，我能看到这项技术有各种用途 - 自动化QA测试，帮助残障人士，甚至在我们忙于其他工作时为我们完成手机上的任务。看起来很有趣!

（举报）

相关推荐
大家在看

关键词：

GPT-4V

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
“单摄”版iPhone 14！iPhone SE 4金属模具首度曝光

iPhoneSE系列产品通常以小屏幕为主，并被认为是苹果最具性价比的手机之一。然随着时间的推移，下一代iPhoneSE将不再坚持小屏幕设计，并且在外观上将有全新的变化。预计这款手机将于2025年发布。

iPhone SE 4
苹果iPhone SE4或采用与iPhone 14相似的刘海设计

据此前曝光的手机保护壳和相关爆料信息，结合现有设计图，可以看出苹果iPhoneSE4可能的设计。该款手机将会有重大升级，在外观上取消了TouchID，并采用与iPhone14相似的刘海设计和FaceID解决方案。该机还可能具备其他特点和功能待进一步确认。

iPhone SE4 Touch
iPhone 16高清大图出炉：“灵动岛版”iPhone X

根据yankodesign基于iPhone16系列模具绘制的渲染图显示，iPhone16标准版可以被看作是iPhoneX灵动岛版”。二者摄像头排列方式相似，主要区别在于屏幕，iPhone16采用了灵动岛药丸屏”。iPhone16标准版有望搭载苹果A18系列芯片，这将是苹果史上性能最强悍的标准版机型。

iPhone 16 摄像头排列
苹果要推出更便宜的iPhone了！

苹果公司正面临着销售下滑的困境。为了扭转局面，推出一款价格更为亲民的iPhone可能是明智的选择。在当前经济形势下，苹果需要不断创新和改革以应对市场的挑战，并维持其竞争优势地位。
荐微软推出iPhone能跑的ChatGPT级模型，网友：OpenAI得把GPT-3.5淘汰了

Llama3发布刚几天，微软就出手截胡了?刚刚发布的Phi-3系列小模型技术报告，引起AI圈热议。其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama38B。对于开源小模型超过ChatGPT这回事，不少网友都认为压力现在给到OpenAI这边，需要赶快推出GPT-3.5的继任者了。

OpenAI
iPhone用户中招！苹果App Store应用商店崩了无法连接

今早，大量苹果iPhone用户反馈，称苹果AppStore应用商店崩了，出现无法连接AppStore，请重试”的提示。有网友吐槽，一大早发什么疯，下个软件搞了半天我以为我账号出问题了”我以为我网坏了”重启也没用”等等。海外的苹果用户也受到了此次故障影响，目前，苹果官方暂未对此回应。

苹果 iPhone App
“iPhone闹钟不会识别调休”多次上热搜！苹果官方客服回应

每逢节假日结束，iPhone闹钟不会识别调休”话题总是能登上微博热搜。今天清明假期结束，虽然是星期日，但由于调休安排今天也是工作日，又有不少网友抱怨称，iPhone闹钟无法识别调休，闹钟又没有响。国产安卓手机的闹钟智能识别节假日已经成为了标配功能。

iPhone 闹钟调休
苹果客服回应iPhone闹钟不会识别调休：需要手动设置

微博热搜榜上，关于“调休”的讨论异常火热，与之相关的“iPhone闹钟不会识别调休”话题也引发了网友们的热议。清明假期后，虽然今天本是休息日，但由于调休政策的实施，我们不得不将今日也视作工作日，这导致本周将连续工作六天。对于这一功能上的不足，客服表示会记录并反馈上去，如果收到较多的用户反馈，后期可能会考虑进行相应的改进。

调休 iPhone 工作日
iPhone SE 4将有巨大变化改为配备刘海设计

根据消息源NguyenPhiHung的最新发布，苹果iPhoneSE4手机将会有重大的设计变化。这款手机取消了TouchID改为配备刘海设计和FaceID解决方案。据部分消息称iPhoneSE4的电池容量约为30xxmAh，并未提及具体数值；关于续航表现，在目前还没有更多信息可以透露给大家。

iPhone SE 4
iPhone16国行售价曝光 iPhone 16 Pro 256GB存储起步

在距离每年9月苹果发布新iPhone还有数月之遥时，其实新一代的iPhone已经完成了设计定稿并开始了试产。iPhone16的详细方案已经浮出水面。我们期待着9月的正式发布，看看这款新机还将带给我们哪些惊喜。

iPhone16 Pro系列存储升级

今日大家都在搜的词：

热文

3 天
7天

研究人员教会GPT-4V使用iPhone并在亚马逊应用程序上购物

今日大家都在搜的词：

热文

站长商机