苹果新AI模型研究Ferret-UI：或将提升Siri，读懂屏幕内容

2024-04-10 09:37 · 稿源：站长之家

划重点:
🔍 苹果发布新的多模式大语言模型 Ferret-UI，能理解手机主屏幕元素
🚀 Ferret-UI 有潜力帮助 Siri 执行任务，提升用户体验
📱 与 OpenAI 的 GPT-4V 相比，Ferret-UI 在基础任务和高级任务中表现出色

站长之家(ChinaZ.com) 4月10日消息:尽管苹果在生成式 AI 热潮开始后并未推出任何 AI 模型，但近期公司正在着手一些 AI 项目。上周，苹果研究人员分享了一篇揭示公司正在研发的新语言模型的论文，内部消息称苹果正在研发两款 AI 驱动的机器人。

如今，又一份研究论文的发布显示苹果才刚刚开始。周一，苹果研究人员发表了一篇研究论文，介绍了 Ferret-UI，这是一个新的多模式大语言模型（MLLM），能够理解移动用户界面(UI)屏幕。

MLLM 与标准 LLM 不同之处在于，它们不仅涉及文本，还展现了对图像和音频等多模式元素的深刻理解。在这种情况下，Ferret-UI 被训练出来识别用户主屏幕的不同元素，如应用程序图标和小文本。过去，由于这些元素的细微特性，对 MLLM 来说识别应用屏幕元素是具有挑战性的。为了克服这个问题，研究论文指出，研究人员在 Ferret 上增加了 “任意分辨率”，使其能够放大屏幕上的细节。

基于此，苹果的 MLLM 还具有 “指代、基础和推理能力”，这使得 Ferret-UI 能够充分理解 UI 屏幕并根据屏幕内容执行任务，如下图所示。

苹果研究人员将 Ferret-UI 与 OpenAI 的 MLLM GPT-4V 在公共基准测试、基础任务和高级任务中进行了比较。在基础任务中，包括图标识别、OCR、小部件分类、查找图标和查找小部件任务在 iPhone 和 Android 上，Ferret-UI 几乎在所有任务上均优于 GPT-4V。唯一的例外是在 iPhone 上的 “查找文本” 任务中，GPT-4V 稍微优于 Ferret 模型。

在对 UI 调查结果进行论证时，GPT-4V 稍微领先，其在推理对话上表现优异，超过了 Ferret93.4% 对91.7%。然而，研究人员指出，Ferret-UI 的表现仍然 “值得关注”，因为它生成原始坐标，而不是 GPT-4V 从中选择的一组预定义框。

论文并未提及苹果计划如何利用这项技术，或者是否会利用。相反，研究人员更广泛地表示，Ferret-UI 的先进功能有望积极影响与 UI 相关的应用。Ferret-UI 可以提升 Siri 的功能。由于模型对用户应用屏幕的全面理解以及执行某些任务的知识，Ferret-UI 可以用于强化 Siri，让其为用户执行任务。

（举报）

相关推荐

关键词：

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
50人团队、1亿美元ARR，AI PPT还在续写“神话”？

AI 生成 PPT 可以说是去年的热门赛道，尤记得关于这类产品是否具有真正竞争力的热烈讨论，而2025年9月份的数据显示，赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且，今天官宣了由 a16z 领投的6800万美元 B 轮融资，融资后估值达到21亿美元。而不仅 Gamma，根据 AI 产品榜数据，9月份，AIPPT 赛道的 Top3产品流量平均涨幅30%+，更有一款

AI生成PPT Gamma融资 AIPPT赛道
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
小米超级小爱AI大模型推出随心修图功能

小米宣布超级小爱AI大模型推出随心修图功能，用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式：在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求：超级小爱需v7.8.50及以上，相册编辑功能需v2.1及以上，相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级，支持全局多模态交互和自然语音搜索，提升使用体验。

小米超级小爱 AI大模型
荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

本期AI日报聚焦多项技术突破：阿里千问APP公测，基于Qwen3模型对标ChatGPT；谷歌Veo 3.1支持三图融合生成8秒视频；小米推出"随心修图"功能与7B多模态模型Miloco；谷歌Flow集成Nano Banana模型实现智能抠图；多模态AI工具DeepEyesV2可执行代码与网络搜索；NotebookLM升级支持图像导入检索；JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温，产品迭代加速。

AI 阿里巴巴千问APP
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

2025年11月13日，百度发布“百度猎户座”AI引擎，全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力，基于多智能体架构统一连接信息、工具、服务与模型，融合搜索技术优势与全网MCP生态资源。即日起对外开放，支持企业快速接入打造专属AI应用。同时，文心助手上线个性化记忆功能，视频生成推出“参考生成”玩法，AI短剧创作平台免费提供超30万部IP资源及全流程工具。

百度猎户座 AI引擎搜索技术

今日大家都在搜的词：

热文

3 天
7天

苹果新AI模型研究Ferret-UI：或将提升Siri，读懂屏幕内容

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

50人团队、1亿美元ARR，AI PPT还在续写“神话”？

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

小米超级小爱AI大模型推出随心修图功能

荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

小米超级小爱AI大模型推出随心修图功能

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

荣耀500系列官宣将于11月24日发布

阿里巴巴回应千问崩了：状态良好欢迎来问

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

华为Mate 80系列已在华为商城开启预约

AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

荣耀500系列开启预约：Pro版外观首次亮相

华为Mate 80 Pro Max外观公布：采用双圆环设计

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

iPhone Pocket正式开售：联名三宅一生售价1299元起

站长商机