首页 > 业界 > 关键词  > 苹果最新资讯  > 正文

苹果开发出能看懂屏幕上下文的人工智能技术ReALM

2024-04-03 16:51 · 稿源:站长之家

站长之家(ChinaZ.com)4月3日 消息:苹果开发出了一项能够实时理解和识别用户屏幕上显示内容的人工智能技术,而且无需依赖屏幕截图或图像数据输入。这项技术被称为ReALM(Real-time Analysis of Live Media),它使得在与用户交流的过程中,智能助手能够看到用户所看到的一切内容,并理解用户当前正在进行的活动,从而随时提供帮助。

image.png

论文地址:https://arxiv.org/pdf/2403.20329.pdf

ReALM技术通过将屏幕上的元素和布局转换为文本形式,然后利用这些文本信息来解析用户提出的与屏幕内容相关的查询或指令。比如用户可以说“打开我屏幕上显示的第一个应用”或“读取屏幕中央的新闻标题”,即使实际上该智能助手并未“看到”用户的屏幕。

这种能力特别适用于需要对屏幕上信息进行快速反应和处理的应用场景,比如虚拟助手和辅助技术等。通过ReALM技术,智能助手可以更加智能地理解用户的意图,并提供更加准确和个性化的帮助和服务。

这一举措预示着 iOS18将于2024年6月的 WWDC 发布,届时我们预计将推出全新的 Siri2.0,尽管目前尚不清楚该模型是否会及时集成到 Siri 中。这并不是苹果最近几个月在人工智能领域的首次尝试,公司推出了一系列新模型、工具以及合作伙伴关系,所有这些都预示着一家准备将人工智能作为业务中心的公司。

ReALM 是苹果快速增长的人工智能研究团队发布的最新消息,也是第一个专注于改进现有模型的消息,使其更快、更智能和更高效。

该公司声称,甚至在某些任务上优于 OpenAI 的 GPT-4。最新发布的详细信息来自苹果公司于周五发布的一篇新的开放研究论文,首次由 Venture Beat 在周一报道。对于它是否将实际成为 iOS18的一部分,苹果公司对此尚未置评。

ReALM 是如何工作的?

ReALM 与 GPT-4等模型相比要小得多。但这是因为它不需要做所有的事情。它的目的是为其他人工智能模型提供上下文,比如 Siri。

这是一个视觉模型,重新构建屏幕并标记每个屏幕实体及其位置。这创建了屏幕布局的基于文本的表示,可以传递给语音助手,为用户请求提供上下文线索。

在准确性方面,苹果表示,尽管体积更小、速度更快,ReALM 在一些关键指标上的表现与 GPT-4相当好。

这对 Siri 意味着什么?这意味着,如果未来版本的 ReALM 被部署到 Siri—— 甚至是这个版本 —— 那么当用户告诉它打开这个应用程序,或者告诉我这个图像中这个词的含义时,Siri 将更好地理解用户的意图。

它还将使 Siri 在不必完全部署像 Gemini 这样的大型语言模型的情况下具有更多的对话能力。当结合其他最近的苹果研究论文,允许 “一次性” 响应 —— 即 AI 可以从单个提示中获得答案 —— 这表明苹果仍在大力投资于 AI 助手领域,而不仅仅依赖外部模型。

举报

  • 相关推荐
  • 一场超20万人在线的校园直播,解密真我realme如何与全球Z世代同频共振

    realme于8月26日在印度维韦卡南达大学举办“下一代先锋”校园直播活动,邀请科技、喜剧、生活方式领域创作者,围绕创业创新与职业发展展开对话。活动通过多平台同步直播,吸引超800人现场参与,线上观看峰值达18.4万。realme以“轻资产、强互动”的营销模式,携手本土创作者走进高校,将科技产品与职业话题结合,为中国手机品牌出海提供了“本地化共创”的新范式。

  • realme真我15000mAh电池容量手机亮相

    在今日举办的真我粉丝节上,realme正式推出全球首款搭载15000mAh全硅负极电池的概念手机,携手珠海冠宇实现电池技术重大突破。 这款手机以1200Wh/L的能量密度刷新行业纪录,较传统硅碳负极电池提升超30%,其高容量正极材料与固体电解质组合,可保障充足储能与离子高效传输,官方宣称满电状态下续航可达5天。

  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • iPhone 17这场仗,苹果要在抖音打

    ​距离iPhone17发售还剩下一周多,库克向抖音请“援兵”了。 近日,Apple Store官方旗舰店入驻抖音商城,销售iPhone、iPad、MacBook等苹果全系产品。截至目前,这家店铺已上架188件商品,吸引超214万粉丝,且仍在不断增长中。 此外,上述店铺已发布7条视频,以苹果员工介绍iPhone使用技巧为主,单条视频收到的红心介于几百至几千个之间。 抖音方面表示,9月10日发布的苹果新品�

  • 澎湃OS 3发布 雷军喊话苹果用户:小米手机更好兼容苹果生态

    日前,小米澎湃OS 3正式发布,此次更新涵盖性能、功能、交互等方面的优化与创新。 在跨端互联能力上,小米澎湃OS 3实现了苹果设备和小米生态的操作打通。 澎湃OS 3发布后,小米CEO雷军发文称:苹果用户可以仔细看看:小米手机更好兼容苹果生态。”

  • 7年来首次!苹果罕见发布iOS 26 Beta 9更新

    今日,苹果发布iOS 26开发者预览版Beta 9更新,内部版本号23A5336a。 值得注意的是,这是继2018年iOS 12之后,苹果首次推出第9个测试版更新。 据悉,从iOS 13到iOS 18,苹果在正式版发布前最多只会推出8个测试版,更新节奏一向稳定。 而iOS 12则因频繁修复弹窗问题,一度创下12个测试版的纪录。 根据往年发布节奏,苹果预计将在9月10日发布iOS 26 RC版(准正式版)更新,9月16日发�

  • 曝苹果Vision Air头显2027年登场:售价腰斩 重量更轻

    知名苹果分析师郭明錤透露,苹果计划于2027年推出轻量版Vision Air,旨在解决当前Vision Pro产品过重、价格高昂的问题。预计Vision Air重量将大幅减少超40%,售价下降约50%。该产品将通过更轻巧外观设计和钛金属材质实现减重目标。苹果CEO库克对其寄予厚望,期待这款头戴设备在未来十年内替代iPhone,成为新一代空间计算时代的引领产品。

  • 苹果首款折叠iPhone或不会采用屏下指纹 将于明年发布

    今日,天风国际证券知名苹果分析师郭明錤透露,苹果公司计划于明年推出的首款折叠iPhone,极有可能不会采用屏下指纹识别技术。这一消息引发了业界对苹果折叠屏手机技术路径的广泛关注。 郭明錤此前在今年3月曾预测,折叠iPhone将采用侧边按键集成Touch ID指纹识别方案,并指出立讯精密有望成为该模组的主要供应商。此次他进一步明确排除屏下指纹选项,或意味着苹果将

今日大家都在搜的词: