MM-Navigator：基于GPT-4V系统，会使用iPhone并在亚马逊上购物

2023-11-15 13:54 · 稿源：站长之家

**划重点:**

1. 🌐 GPT-4V代理通过图像处理和基于文本的推理，能够在智能手机GUI中导航和购物。

2. 🛠️ MM-Navigator，由GPT-4V模型支持，利用创新技术解决了智能手机应用程序界面导航的复杂性。

3. 🤔 尽管在执行任务和理解用户指令方面取得高准确度，但MM-Navigator仍然面临处理多样化和动态界面元素的挑战。

在智能手机技术的不断发展中，对于能够导航和与移动应用程序复杂界面进行交互的人工智能的需求不断增加。这超越了简单的自动化，需要一种能够理解GUI并执行类似于人类的任务的AI。

一项新研究介绍了MM-Navigator，这是一个由GPT-4V代理构建的系统，旨在满足这一挑战。该系统的开发者旨在将AI的能力与智能手机应用程序的复杂工作相连接。

MM-Navigator系统的核心是GPT-4V模型，结合了新颖的提示技术，以实现对屏幕位置的精确控制。GPT-4V接收用户提供的文本指令和当前智能手机屏幕的图像作为输入，然后生成描述下一步操作的文本输出。为了允许在屏幕的精确区域进行点击，研究人员在屏幕图像中的每个可交互元素（如按钮和图标）上添加了编号标记。GPT-4V可以在生成的动作文本中引用这些数字标签，从而索引特定的屏幕位置。

实验结果

为了评估MM-Navigator系统，研究人员对其进行了iOS屏幕和他们自己收集的指令的测试，以及一个包含Android设备屏幕和动作的公开数据集的测试。在单操作指令的iOS屏幕上，人类评估发现，预期操作的自然语言描述在91%的情况下是合理的。数字标签选择的实际屏幕位置在75%的情况下是正确的，显示出良好但不完美的视觉基础能力。

MM-Navigator 能够熟练地处理多步骤场景，这体现在它能够协助完成产品采购等任务。一个例子是他们让代理商在亚马逊上购买奶泡器!该系统成功地通过各种应用程序和界面来实现这一目标，甚至将预算控制在50-100美元之间。下图取自论文，详细展示了它的工作原理。

局限

尽管MM-Navigator在处理多步骤场景方面表现出色，例如在购物过程中帮助用户购买商品，但研究者们也指出了一些限制和错误情况。

在本文的“错误分析”部分，作者检查了 GPT-4V 在预测图形用户界面（GUI）内的用户操作时所犯的错误类型。漏报，这些错误通常源于数据集或注释过程的问题。在某些情况下，GPT-4V 的预测是正确的，但由于标记集注释解析不准确或数据集注释不完善而被标记为不正确。当 GUI 中的目标区域过度分割或存在多个有效操作但注释仅将其中一个识别为正确时，经常会出现这种情况。

还有些错误归因于 GPT-4V 零样本测试方法的局限性。如果没有示例来指导其对用户操作模式的理解，该模型往往更喜欢点击而不是滚动，从而导致决策与典型的人类行为不一致。例如，GPT-4V 可能会尝试在可见选项卡中查找选项，而不是向下滚动以获取更多选项。它还可能点击非交互式元素或过于字面地解释指令，从而导致不适当的操作。

总的来说，MM-Navigator代表了AI在导航和与智能手机界面交互方面的一次有趣的飞跃。尽管在理解用户指令和执行任务方面表现出高准确度，但它仍然面临处理多样化和动态界面元素的挑战。

该系统的发展和测试突显了为实现这种复杂交互能力而创建的AI模型的复杂性，并强调了准确的数据集注释和可调整的测试方法的重要性。如果进一步发展，这项技术可能在自动化QA测试、帮助残障人士，甚至在我们忙于其他工作时为我们在手机上完成任务方面发挥各种用途。看起来很有趣!

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
“单摄”版iPhone 14！iPhone SE 4金属模具首度曝光

iPhoneSE系列产品通常以小屏幕为主，并被认为是苹果最具性价比的手机之一。然随着时间的推移，下一代iPhoneSE将不再坚持小屏幕设计，并且在外观上将有全新的变化。预计这款手机将于2025年发布。

iPhone SE 4
苹果iPhone SE4或采用与iPhone 14相似的刘海设计

据此前曝光的手机保护壳和相关爆料信息，结合现有设计图，可以看出苹果iPhoneSE4可能的设计。该款手机将会有重大升级，在外观上取消了TouchID，并采用与iPhone14相似的刘海设计和FaceID解决方案。该机还可能具备其他特点和功能待进一步确认。

iPhone SE4 Touch
荐微软推出iPhone能跑的ChatGPT级模型，网友：OpenAI得把GPT-3.5淘汰了

Llama3发布刚几天，微软就出手截胡了?刚刚发布的Phi-3系列小模型技术报告，引起AI圈热议。其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama38B。对于开源小模型超过ChatGPT这回事，不少网友都认为压力现在给到OpenAI这边，需要赶快推出GPT-3.5的继任者了。

OpenAI
iPhone 16高清大图出炉：“灵动岛版”iPhone X

根据yankodesign基于iPhone16系列模具绘制的渲染图显示，iPhone16标准版可以被看作是iPhoneX灵动岛版”。二者摄像头排列方式相似，主要区别在于屏幕，iPhone16采用了灵动岛药丸屏”。iPhone16标准版有望搭载苹果A18系列芯片，这将是苹果史上性能最强悍的标准版机型。

iPhone 16 摄像头排列
苹果神秘Presto设备真机曝光：不打开包装就能给iPhone更新系统

知名爆料人MarkGurman上周透露，苹果开发了一种名为Presto”的系统设备，可以为零售店中新机隔空更新系统。近日这款设备的真身被曝光出来，整体就像一款储物柜，可以堆叠，每一台可以放置6个iPhone盒子，通过NFC连接手机。苹果将会在今年夏天之前让这项系统覆盖全美国的所有零售店，后续还会扩展至全球更多地区。

苹果 Presto 系统更新
苹果要推出更便宜的iPhone了！

苹果公司正面临着销售下滑的困境。为了扭转局面，推出一款价格更为亲民的iPhone可能是明智的选择。在当前经济形势下，苹果需要不断创新和改革以应对市场的挑战，并维持其竞争优势地位。
苹果零售店Presto专用设备曝光可为未拆解iPhone升级系统

苹果公司计划在美国的零售店推出一项名为“PrestowithinApple”的新服务。这项服务将允许苹果员工使用一款名为“Presto”的专用设备，为未拆封的iPhone进行无线软件更新，让消费者购买新iPhone后马上就能使用最新的iOS系统，无需花费时间去升级。这也意味着，在未来几年内，苹果将继续保持其智能手机产品的领先地位，并不断推动智能手机技术的发展。

苹果公司零售店 Presto
iPhone SE 4将有巨大变化改为配备刘海设计

根据消息源NguyenPhiHung的最新发布，苹果iPhoneSE4手机将会有重大的设计变化。这款手机取消了TouchID改为配备刘海设计和FaceID解决方案。据部分消息称iPhoneSE4的电池容量约为30xxmAh，并未提及具体数值；关于续航表现，在目前还没有更多信息可以透露给大家。

iPhone SE 4
iPhone用户中招！苹果App Store应用商店崩了无法连接

今早，大量苹果iPhone用户反馈，称苹果AppStore应用商店崩了，出现无法连接AppStore，请重试”的提示。有网友吐槽，一大早发什么疯，下个软件搞了半天我以为我账号出问题了”我以为我网坏了”重启也没用”等等。海外的苹果用户也受到了此次故障影响，目前，苹果官方暂未对此回应。

苹果 iPhone App
荐奥特曼爆火AI硬件遭差评，ChatGPT版iPhone上市即翻车！

【新智元导读】传说中要取代智能手机的首款AI硬件AiPin，在万众瞩目中面世了!然大家试用后，给出了一边倒的差评:操作复杂学不会，3分钟后过热关机，太慢、太笨、没反应，室外压根看不清……看来，智能手机要被淘汰得再等一阵子。万众瞩目的ChatGPT版iPhone，终于面世了!最近，铺天盖地都是对AiPin的讨论声。但他是绝对不会花700美元购买AiPin的，更不用说每月支付24美元的订阅费，以及T-Mobile的数据服务了。

AI硬件

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

MM-Navigator：基于GPT-4V系统，会使用iPhone并在亚马逊上购物

今日大家都在搜的词：

热文

站长商机