苹果开发出能看懂屏幕上下文的人工智能技术ReALM

2024-04-03 16:51 · 稿源：站长之家

站长之家（ChinaZ.com）4月3日消息:苹果开发出了一项能够实时理解和识别用户屏幕上显示内容的人工智能技术，而且无需依赖屏幕截图或图像数据输入。这项技术被称为ReALM（Real-time Analysis of Live Media），它使得在与用户交流的过程中，智能助手能够看到用户所看到的一切内容，并理解用户当前正在进行的活动，从而随时提供帮助。

论文地址:https://arxiv.org/pdf/2403.20329.pdf

ReALM技术通过将屏幕上的元素和布局转换为文本形式，然后利用这些文本信息来解析用户提出的与屏幕内容相关的查询或指令。比如用户可以说“打开我屏幕上显示的第一个应用”或“读取屏幕中央的新闻标题”，即使实际上该智能助手并未“看到”用户的屏幕。

这种能力特别适用于需要对屏幕上信息进行快速反应和处理的应用场景，比如虚拟助手和辅助技术等。通过ReALM技术，智能助手可以更加智能地理解用户的意图，并提供更加准确和个性化的帮助和服务。

这一举措预示着 iOS18将于2024年6月的 WWDC 发布，届时我们预计将推出全新的 Siri2.0，尽管目前尚不清楚该模型是否会及时集成到 Siri 中。这并不是苹果最近几个月在人工智能领域的首次尝试，公司推出了一系列新模型、工具以及合作伙伴关系，所有这些都预示着一家准备将人工智能作为业务中心的公司。

ReALM 是苹果快速增长的人工智能研究团队发布的最新消息，也是第一个专注于改进现有模型的消息，使其更快、更智能和更高效。

该公司声称，甚至在某些任务上优于 OpenAI 的 GPT-4。最新发布的详细信息来自苹果公司于周五发布的一篇新的开放研究论文，首次由 Venture Beat 在周一报道。对于它是否将实际成为 iOS18的一部分，苹果公司对此尚未置评。

ReALM 是如何工作的?

ReALM 与 GPT-4等模型相比要小得多。但这是因为它不需要做所有的事情。它的目的是为其他人工智能模型提供上下文，比如 Siri。

这是一个视觉模型，重新构建屏幕并标记每个屏幕实体及其位置。这创建了屏幕布局的基于文本的表示，可以传递给语音助手，为用户请求提供上下文线索。

在准确性方面，苹果表示，尽管体积更小、速度更快，ReALM 在一些关键指标上的表现与 GPT-4相当好。

这对 Siri 意味着什么?这意味着，如果未来版本的 ReALM 被部署到 Siri—— 甚至是这个版本 —— 那么当用户告诉它打开这个应用程序，或者告诉我这个图像中这个词的含义时，Siri 将更好地理解用户的意图。

它还将使 Siri 在不必完全部署像 Gemini 这样的大型语言模型的情况下具有更多的对话能力。当结合其他最近的苹果研究论文，允许 “一次性” 响应 —— 即 AI 可以从单个提示中获得答案 —— 这表明苹果仍在大力投资于 AI 助手领域，而不仅仅依赖外部模型。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Zoom 首次进行大规模更新，搭载生成式人工智能技术

Zoom，作为视频会议平台的领军者，近日进行了十年来的首次重大更新，这次更新主要由生成式人工智能技术提供支持。ZoomWorkplace作为AI驱动的协作平台，已经正式对用户开放，为用户带来了全新的体验。这次更新的推出，为用户提供了更加便捷、高效的会议体验，同时也展示了AI技术在协作平台中的广泛应用前景。

Zoom AI技术 AI头条
可口可乐与微软签署11亿美元协议，推动生成式人工智能技术

可口可乐公司与微软签署了一项价值11亿美元的协议，旨在改善其云计算并在全球范围内采用科技巨头的生成式人工智能能力。这项为期五年的“战略合作伙伴关系”将使可口可乐和微软共同尝试新技术，例如AzureOpenAI服务，以开发“创新的生成式人工智能用例，涵盖各种业务功能”。我们讨论的是能源效率、水资源效率、换线效率，这不仅从运营角度提高了生产率，也提高了�

可口可乐微软生成式AI
苹果开发出新款AI：可“看懂”屏幕内容并语音回复

苹果公司近日宣布，成功研发出一款前沿的人工智能系统ReALM。该系统具备卓越能力，能够精准解析屏幕上模糊的内容，同时深入理解相关对话及背景环境，从为用户提供更为自然流畅的语音助手交互体验。苹果预计将推出一系列创新成果，包括全新大语言模型框架、AppleGPT”聊天机器人及其生态系统中的其他AI功能。

人工智能系统苹果公司语言建模
部分品牌开始禁止广告公司使用人工智能

近日一份新报告显示，越来越多的公司开始担心广告商将生成式人工智能融入其工作流程。在这场人类艺术家与生成式人工智能之间的“冷战”中，企业们成为了意想不到的盟友。更新后的指南现在建议企业在与广告公司的协议中包含关于人工智能和同意的条款，公司似乎开始遵循这一建议。

人工智能
为什么大家都选择“第五届深圳国际人工智能展”?

作为展示人工智能最新成果和前沿技术的重要窗口，第五届深圳国际人工智能展（简称“GAIE”）将于2024年5月29—31日在深圳会展中心（福田）举办。本届展会以“智创未来•价值链接”为主题，将为公众和业界人士呈现一场科技与智慧交织的专业化盛宴。政府指导引领提升展会权威自2020年成功举办以来，深圳国际人工智能展历届受到了国家与省市各级政府相关职能部门的重�
秀域：人工智能助力按摩理疗，打造健康新选择

颈椎病、肩周问题、腰椎间盘突出症、腰肌劳损、膝关节问题等多发于老年群体，属于典型的“老年病”，但随着现代人们生活习惯与工作方式的改变，这些“老年病”开始向年轻化发展，不少正值壮年的职场精英也开始出现颈椎、腰椎问题。大家可以回想一下，自己周围有没有颈、肩、腰、腿不舒服的亲戚朋友呢?答案是一定有。这一创新为健康理疗行业的发展开辟了广阔的可能性，激发了业界对未来的无限遐想。

颈椎病肩周问题腰椎间盘突出症
人工智能是把“双刃剑” 审慎应对科技潜在危害

2023年11月1日，全球首届人工智能（AI）安全峰会在英国开幕，马斯克在峰会上提出:应该建立“第三方裁判”来监督开发人工智能的公司，这个裁判将观察领先的AI公司在做什么，并在必要时发出警报。马斯克表示，政府在制定监管规则之前需要深入了解AI的发展。他把人工智能称为一把“双刃剑”，认为它对人类有益，但同时也存在危险。英国最近发表的一份声明，由28个国家�

人工智能安全 AI监督人类机器合作
研究：人工智能在提供情感支持方面优于人类

在快节奏的现代生活中，真正感到被倾听和理解是一件罕见的事情。许多人并没有从周围的人那里得到他们需要的情感支持、共鸣和认可。这种分辨出正确类型的回应的能力很可能促成了其积极影响。

人工智能 AI头条
雅虎收购Artifact：将人工智能新闻技术融入旗下产品

雅虎宣布已从Instagram联合创始人KevinSystrom和MikeKrieger手中收购了人工智能驱动的新闻应用Artifact。Artifact这款应用自推出以来，就以其独特的人工智能技术吸引了广大用户的关注。这一成功的先例无疑为雅虎此次收购Artifact提供了信心和经验借鉴。

人工智能新闻应用深度学习
美英宣布合作，共同关注人工智能安全与测试

美国和英国于周一宣布了一项新的合作伙伴关系，共同关注人工智能安全科学，针对即将到来的下一代版本引发的日益关注的问题。美国商务部长吉娜・雷蒙多和英国科技部长米歇尔・多纳兰在华盛顿签署了一项谅解备忘录，共同开发先进的AI模型测试，这是继去年11月在布莱切利公园举办的AI安全峰会上宣布承诺后的进展。“那些后果可能是灾难性的，因此我们对某些模型被用于这种能力必须有零容忍。

人工智能

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

苹果开发出能看懂屏幕上下文的人工智能技术ReALM

今日大家都在搜的词：

热文

站长商机