首页 > 业界 > 关键词  > 模型最新资讯  > 正文

苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

2024-04-09 16:47 · 稿源:站长之家

站长之家(ChinaZ.com)4月9日 消息:苹果公司近日发布了一款名为MLLLLM Ferret-UI的新型机器学习语言模型,旨在提升对移动应用用户界面(UI)的理解。这款模型经过特别优化,能够处理移动UI屏幕上的各种任务,并具备指向、定位和推理等能力。业界普遍猜测,这一技术可能会被应用在即将发布的iOS18中,提供类似通过Siri自动操作应用界面的功能。

image.png

论文地址:https://arxiv.org/pdf/2404.05719.pdf

Ferret-UI模型是专为提高对移动UI屏幕理解而设计的MLLM。它的一个关键特点是“任何分辨率”技术,该技术通过放大细节来解决UI屏幕中小型对象的识别问题,从而显著提高模型对UI元素的理解精度。

UI屏幕的理解是一个复杂的问题,因为它不仅要求模型能够理解屏幕上的内容,还要能够识别和操作具体的UI元素。与传统的自然图像相比,UI屏幕通常具有更多的长宽比和更小的元素,这些元素对于模型来说是一个挑战。

为了克服这些挑战,Ferret-UI采用了“任何分辨率”技术。该技术通过将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节。这种方法使得模型能够更准确地识别和理解UI屏幕上的小型对象。

在训练Ferret-UI时,收集了从基础UI任务到高级任务的广泛数据样本。这些样本被格式化为带有区域注释的指令遵循格式,以便于模型进行精确的引用和定位。此外,为了提高模型的推理能力,还特别编制了一个包含详细描述、感知/交互对话和功能推断等高级任务的数据集。

Ferret-UI的架构基于已经在自然图像的引用和定位任务中表现出色的Ferret模型。为了适应UI屏幕的特点,Ferret-UI进行了架构调整,包括集成“任何分辨率”技术和使用预定义的网格配置来划分全图图像。此外,为了全面评估模型的能力,还建立了一个包含所有研究任务的综合测试基准。

高级任务中,Ferret-UI的对话能力表现突出,尤其是在详细描述和交互对话任务中。模型能够生成与视觉组件相关的详细讨论,并提出以特定目标为导向的行动计划。此外,Ferret-UI还能够通过功能推断来解释屏幕的整体目的,显示出在理解和生成自然语言指令方面的高级能力。

举报

  • 相关推荐
  • 苹果公司发布新款Mac Studio 搭载M3 Ultra芯片

    苹果公司于近日在其官方网站上正式推出了全新的MacStudio产品。此次发布的MacStudio包括两个版本,分别是M4Max版本和M3Ultra版本,满足不同用户的需求。这一新产品的发布,无疑将进一步丰富苹果的产品线,为用户提供更多选择。

  • 中文版Apple Intelligence来了 苹果公发布时间:4月初

    早在去年10月,AppleIntelligence首批功能上线时,苹果就预告AppleIntelligence会在4月适配更多语言和地区。苹果官网显示,AppleIntelligence简体中文、英语、法语、德语、意大利语、日语、韩语、葡萄牙语和西班牙语会在4月初上线支持。业内人士指出,对于苹果公司言,此次与阿里巴巴的合作将有助于提升其在中国市场的竞争力,另一方面,这也将促进AI技术在智能手机领域的广泛应用和普及。

  • 靠游戏“Carry”语言学习App,吸量还赚钱?

    2月18日日本iOS教育下载榜|图片来源:点点数据上个月,一款AI教育产品《麦格纳与神秘少女》,登上了日本iOS教育下载榜Top5,上升了404位。这款产品出现在教育分榜中有些突兀,无论是名字还是Icon,它都更像是一款手游,简单的试用了一下,大思路就是将学习过程融入到游戏当中,让用户“无痛学习”。但如何不喧宾夺主,平衡好兴趣和学习效果,则是实操层面需要一步步去�

  • 当 DeepSeek 爆火遇上安全风暴,瑞数信息多重防护体系护航 LLM

    全球爆火的DeepSeek:效率与隐患并存根据IDC最新报告,DeepSeek-R1在多类别大模型综合排名中飙升至第三梯队,其标志性成果是独创的"动态意图感知"架构——这项在用户意图预测准确率上高达96.7%的技术,使它在风格控制类模型领域与OpenAI的o1模型并列世界之首。大型语言模型正以前所未有的速度渗透到各行各业。瑞数信息将持续迭代“动态安全AI”技术,为LLM应用提供端到端防护,以创新为驱动,护航企业数字化进程。

  • 《Killing Floor 3》延期

    该作原定本月25号与玩家见面,但封测结果显示游戏无法令粉丝满意,导致开发团队临时决定游戏跳票至下半年:在广泛收集并讨论封测反馈意见后,我们意识到目标并未达成。KF3不仅要成为该系列突破性作品,同时也必须保有粉丝所熟悉并热爱的核心体验”,开发单位Tripwire在声明中称。现在最大的问题是游戏上市日期,下半年所有重要发布都要与《GTA6》拉开距离,新战地夹在GTA与CoD之间很难办。

  • 从 ID.2all 开始,大众所有新车将重新采用“物理按键”

    大众汽车致力于转向使用触摸屏,但如今,他们又将在其所有车辆上重新采用物理按键。在接受《英国汽车杂志》采访时,这家德国汽车巨头的设计总监安德烈亚斯・明特称,取消这些物理按键的决定是“一个错误”。从2026年1月1日起,在欧盟销售的新车如果想要获得欧洲新车评估计划的最高安全评级,其喇叭、挡风玻璃雨刮器、转向灯、危险警示灯和紧急呼叫功能必须配备物理按键或开关。

  • 苹果iOS 19 UI大变:图标/菜单全部重新设计

    苹果计划对iOS19、iPadOS19、macOS16进行重大革新,它将从根本上改变苹果系统的外观,让用户跨平台体验具有连续性和一致性。对于广大苹果用户来说,iOS19是最受关注的重点,报道称苹果计划对iOS19图标、菜单、应用、窗口和系统按钮进行全面升级,并简化导航和用户操作方式。iOS19将会在今年6月举办的WWDC上正式亮相,iPhone17系列出厂预装iOS19。

  • 苹果计划为Apple Intelligence集成谷歌Gemini,ChatGPT之外的新选择

    苹果公司正在计划将谷歌Gemini集成到他们的AI服务AppleIntelligence之中。根据iOS18.4测试版中的代码显示,苹果公司似乎正在为其AppleIntelligence中集成的ChatGPT寻找替代方案谷歌的Gemini或将成为新选择。可以肯定的是,苹果与谷歌等任何其他AI公司的合作协议都将包含同样的隐私保护条款。

  • 英伟达利润大增80% 黄仁勋感叹:Blackwell需求惊人

    据报道,英伟达今日公布了该公司的2025财年第四财季及全年财报。第四财季营收达到393.31亿美元,同比增长78%,环比增长12%;净利润为220.91亿美元,同比大幅增长80%。这一数据进一步凸显了英伟达在AI芯片市场的领先地位及其在数据中心领域的强劲竞争力。

  • 2025全球机器学习技术大会即将召开:汇聚全球AI顶尖专家,共话未来技术趋势

    由CSDN与Boolan联合主办的「2025全球机器学习技术大会」将于4月18日至19日在上海虹桥西郊庄园丽笙大酒店隆重举行。本次大会汇聚全球AI领域的顶级学者、行业领袖和技术专家,共同探讨大模型技术演进、智能体、代码大模型、多模态技术等前沿话题,为参会者提供全方位的技术解读与行业洞察。参会报名与联系方式参会席位现已开放,欢迎登陆大会官网2025全球机器学习技术大�

热文