首页 > 业界 > 关键词  > Siri最新资讯  > 正文

超强Siri即将到来!苹果10篇重磅AI研究全总结,iOS 18关键一瞥

2024-05-08 17:31 · 稿源: 新智元公众号

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。

【新智元导读】一直以来,苹果在大模型、语音助手上的研究不断推陈出新,或许我们能够从中获得iOS18所具备AI能力的关键一瞥。

Siri太笨,根本无法与ChatGPT竞争」,前苹果工程师John Burkey曾对Siri的评价如此不堪。

不过,诞生于11年的Siri,终于要迎来翻身的机会。

ChatGPT横空出世之后,微软、谷歌等科技巨头,甚至OpenAI、Anthorpic AI等初创,都在你追我赶激烈地角逐。

在AI竞赛上,苹果却一直姗姗来迟。

其实,早有传言和报道称,在过去几个月中,苹果实际上一直再等待一个时机,做出反击。

先是与谷歌谈判被爆出,后是与OpenAI开展合作,预计将AI模型能力整合进下一代iOS18系统中。

图片

除此以外,苹果研究团队也在一直开发自己的模型——Ajax。

而且,最近几个月,苹果在大模型等研究上的成果频出,意味着这些AI能力可能会成为现实。

距6月开发者大会WWDC,也就不过一个月左右的时间,或许我们可以从这些研究中,一瞥苹果的AI能力。

更小、更高效LLM装进iPhone

相信所有人的期望都是一样的——想要一个更好的Siri。

而现在看起来,换新的Siri即将到来,完成超强进化!

ChatGPT之后,大模型诞生的数量也是数不胜数,然而许多科技公司都希望LLM能够赋能虚拟助手,让其变得更优秀,更智能。

对于苹果来说,想要让Siri不再被人,说笨就需要尽快构建这些模型,让其能装进手机。

彭博最近报道,在iOS18中,苹果计划让所有AI功能,都运行在设备上,而且可以完全离线使用。

而现在的困难是,即便你有一个数据中心和数千个GPU组成的网络,要建立一个良好的多用途的模型,并装进手机,是非常困难的。

因此,苹果不得不发挥创意。

在一篇名为LLM in a flash: Efficient Large Language Model Inference with Limited Memory的论文中,研究人员设计了一个系统,可以将通常存储在设备RAM中的模型数据,存储到固态硬盘(SSD)上。

图片

论文地址:https://arxiv.org/pdf/2312.11514

具体来说,研究证明了,在SSD上运行的LLM的大小,可以达到可用DRAM的2倍。

与传统的CPU加载方法相比,推理速度提高了4-5倍,而GPU提高了20-25倍。

他们发现 ,通过利用设备上最廉价的可用存储模型,模型可以运行得更快、更高效。

图片

此外,苹果的研究人员还创建了,一个名为EELBERT的系统,可以将大模型压缩到更小的规模,同时不影响其性能。

通过对谷歌Bert模型进行压缩后,体积缩小了15倍,只有1.2兆字节,质量只降低了4%。

不过,这也带来了一些延迟问题。

图片

论文地址:https://arxiv.org/pdf/2310.20144

总而言之,苹果正努力解决模型领域的一个核心矛盾:模型越大越好用,但在终端上耗电快运行慢。

与其他科技公司一样,苹果正在这一点上找到平衡。

Siri完成超进化!

苹果研究AI终归解决一个至关重要的问题,如何让Siri变得更加出色。

在内部,苹果团队设想开发一种,无需唤醒词Hey Siri或Siri,就能使用AI助手的方法。

没有声音提示,那该如何让设备通过「直觉」判断一个人在讲话?

这一难题,比语音触发检测更具挑战性。

苹果研究团队不得不承认,这是因为可能没有一个主要的触发语,来标志语音命令的开始。

图片

论文地址:https://arxiv.org/pdf/2403.14438

这也许就是,为什么另一组研究人员,开发出了一个系统可以更准确地检测唤醒词。

图片

论文地址:https://arxiv.org/pdf/2309.16036

具体来说,作者提出了语音触发(VT)的多通道声学模型,将前端的多通道输出直接输入VT模型。

他们采用了TAC(Transform-Average-Conatenate)模块,并通过合并来自传统通道选择的通道,对TAC模块进行了修改,让模型能够在存在多个说话人的情况下关注目标说话人。

图片

与基线通道选择方法相比,该方法的误拒率降低了30%。

而在另一篇论文中,研究人员训练了一个模型,以更好地理解不太容易被AI助手理解的罕见词。

图片

论文地址:https://arxiv.org/pdf/2310.07062

在这两种情况中,LLM的魅力在于,理论上它可以更快地处理更多信息。

例如,在关于唤醒词的研究中,研究人员发现,如果不试图摒弃所有不必要的声音,而是把所有声音都输入模型,让它来处理哪些是重要的,哪些是不重要的,那么唤醒词的效果就会可靠得多。

一旦Siri听到你的声音,苹果就会做很多工作,以确保它能更好地理解和沟通。

在另一篇论文中,苹果还开发了一个名为STEER系统,旨在改善用户与助手之间的交流。

图片

论文地址:https://arxiv.org/pdf/2310.16990

在另一个例子中,它使用LLM来更好地理解「模棱两可的问题」,无论你怎么说,它都能弄清楚你的意思。

在不确定的情况下,智能对话智能体可能需要主动提出好的问题,从而更有效地解决问题,从而减少不确定性。

图片

在另一篇论文也旨在帮助解决这个问题,研究人员利用大模型使助手在生成答案时不再冗长,更容易理解。

苹果每个应用,将被AI重构

除了关注原始的技术发展,苹果也非常关注人工智能的日常应用。

对于苹果来说,一个重点领域就是健康:

LLM可以帮助分析处理各种设备收集到的大量生物识别数据,并帮助理解这些数据。

苹果可以通过研究收集和整理你的所有运动数据,利用步态识别和耳机来识别你的身份,以及如何跟踪和理解你的心率数据,来监测你的身体状况,为你提供合适的安全建议。

苹果还把人工智能想象成一种创造性工具。

在2月发表的一篇论文中,苹果团队采访了一批动画师、设计师和工程师,并构建了一个KeyFramer系统。

这一系统,可以让用户迭代地构建和改进生成的设计。

用户只需要先输入一个提示,然后得到一个工具包,可以根据自己的喜好调整和完善图片的某些部分。

图片

论文地址:https://arxiv.org/pdf/2402.06071

此外,苹果还有开发了一款名为MGIE的工具,可以让你通过描述内容来编辑图片(比如「让天空更蓝」、「让我的脸不那么怪异」、「添加一些石头」等等)。

图片

论文地址:https://arxiv.org/pdf/2309.17102

论文中,研究人员表示,MGIE不需要简短但含糊的提示,便可以明确地推导出视觉感知的意图,从而实现合理的图像编辑。

「最初的实验并不完美,但令人印象深刻」。

图片

未来,苹果还有可能将AI用在音乐中。

在一篇名为Resource-constrained Stereo Singing Voice Cancellation的论文中,研究人员探索了将歌曲中的声音与乐器分离的方法。

图片

论文地址:https://arxiv.org/pdf/2401.12068

比如,像在TikTok或Instagram上那样混音歌曲,这个AI可能会派上用场。

图片

随着时间的推移,苹果会在iOS 上,在自身的生态系统中内置一些功能,也会以API的形式提供给第三方开发者。

之前苹果一直在大肆宣传自己的硬件能力,尤其是与普通的安卓设备相比。

将所有这些功率与设备上注重隐私的人工智能相结合,可能会成为苹果一个很大的差异化优势。

这次iOS18强势来袭,网友一如既往地对苹果期待感满满。

图片

值得一提的是,苹果在多模态大模型方面研究,也引来众多的关注。

Ferret堪称苹果最大型、最雄心勃勃的人工智能项目。输入提示之后,它可以关注你选择的特定事物,并理解周围的世界。

图片

论文地址:https://arxiv.org/pdf/2404.05719

甚至,Ferret还可以帮助你导航应用程序、回答有关App Store评级的问题、描述你正在看的内容等等。

一旦这种技术得以应用,可能彻底改变每个人使用手机的方式,以及Vision Pro和智能眼镜的使用方式。

虽然目前这些都只是研究成果,但是如果能在今年春天开始顺利运行,那将是一项闻所未闻的技术成就。

WWDC大会即将发布的大型人工智能模型,必然会把技术狂欢推向新一轮的高潮。

苹果或会全面改版iPhone产品,也就意味着你的下一台iPhone不必是iPhone。

这一切都在库克的预料之中,接下来就等着瞧好吧。

参考资料:

https://www.theverge.com/2024/5/5/24147995/apple-siri-ai-research-chatbot-creativity

举报

  • 相关推荐
  • 大家在看
  • Jovu:AI驱动的代码生成,快速实现从想法到生产。

    Jovu是一个AI驱动的代码生成模型,旨在帮助开发者快速构建新服务或扩展现有应用程序。它通过AI技术生成生产就绪的代码,确保一致性、可预测性,并遵循最高标准。Jovu能够加速开发过程,从概念到部署只需几分钟,提供完全可操作的、健壮的后端服务,准备立即上线。它还通过简化开发工作流程、减少时间、优化资源来提高效率和速度。

  • TapScanner:全能扫描仪,AI助力,智能识别与分析。

    TapScanner是一款利用人工智能技术,将移动设备转变为多功能智能扫描仪的应用程序。它能够识别和分析各种对象和文档,提供即时洞察力,并通过扫描轻松提升日常交互。

  • TopicRanker:AI驱动的SERP分析工具,帮助用户发现易于排名的关键词。

    TopicRanker是一款AI驱动的搜索引擎排名分析工具,专注于帮助用户通过分析竞争对手的弱点,发现在搜索引擎结果页面(SERP)中易于排名的关键词。它通过提供详尽的分析报告,AI生成的标题建议,内容大纲,博客文章,以及增强型元描述,帮助用户优化内容创作,提高SEO效果。产品背景信息包括它是由CriminallyProlific.com开发的,并且已经帮助多个企业在谷歌上排名第一。价格方面,TopicRanker提供三种不同的订阅计划,满足不同用户的需求。

  • Warmy:通过AI引擎提高电子邮件的投递率

    Warmy是一个利用人工智能技术来优化电子邮件投递率的平台。它通过分析每个邮箱的发送活动和接收者行为,为每个邮箱制定个性化的预热计划,确保邮件发送量逐渐增加而不会触发垃圾邮件过滤器,从而最大化邮件的投递率。此外,Warmy的Adeline AI引擎能够实时分析发送性能,预测最佳发送时间和频率,帮助用户提高参与度,避免过度发送邮件给接收者造成困扰。Warmy还具备AI驱动的垃圾邮件风险检测功能,能够主动识别并标记具有高垃圾邮件风险的邮件,帮助用户避免邮件落入垃圾邮件文件夹,确保重要邮件能够送达接收者。

  • Glitter AI:将任何流程转化为逐步指南。

    Glitter AI是一个创新的在线工具,它允许用户通过点击和说话来快速创建逐步指南。这项技术简化了教学过程,使得向同事、客户甚至家人传授技能变得简单快捷。

  • Tourly Guide:沉浸式音频导览,让每个地标自己说话

    Tourly Guide是一款移动应用程序,通过使用人工智能技术,为用户提供独特的沉浸式音频导览体验。它允许用户在探索地标时,通过AI生成的音频指南获得深入的了解和教育。该产品的主要优点包括个性化的导览内容、用户友好的界面设计以及对教育和文化探索的重视。Tourly Guide的背景信息显示,它由Roadly, Inc.开发,旨在通过技术提升用户的旅游和学习体验。

  • SaveDay App:随时随地保存、管理和利用内容

    SaveDay是一个智能工具,用于捕捉、组织和利用你的知识。它提供了快速的信息捕捉解决方案,支持保存文章、网站、图片、视频等,并且可以在移动设备上搜索、询问和总结内容。SaveDay注重数据安全和隐私保护,不与第三方共享用户内容。

  • Neurture:通过了解大脑运作制定改变计划的APP

    Neurture是一个旨在帮助用户了解大脑如何运作,并通过基于研究的治疗方法来制定有效的改变计划的应用程序。它通过数字化手写日记条目、获取后续期刊提示建议、由人工智能支持的情景冥想和期刊推荐等功能,帮助用户打破习惯或解决成瘾行为,实现重要的其他目标。Neurture强调隐私和信任,不收集用户数据,不投放广告,不训练模型,旨在为用户提供一个安全、无负担的自我提升环境。

  • AiWatchfulCompanion:革命化的家庭护理方式,从婴儿到老年人。

    AiWatchfulCompanion是一款旨在改变我们照顾亲人方式的应用程序,它通过使用人工智能技术,为远离家乡的护理者提供实时的关怀和支持。该应用利用计算机视觉和音频分析,实时响应亲人的需求,提供连续的安全和健康保障。它还具备紧急响应功能,在无法联系到护理者时,能够向紧急服务提供事故位置。

  • Viva:使用的 Sora 同架构视频生成模型

    Viva 是一个免费的 AI 生成工具和社区,提供 Text-to-Image、Image-to-Image、Text-to-Video、Image-to-Video 等功能,以及强大的 AI 编辑工具。用户可以扩展图像、重新绘制任何内容,使图像和视频更加高质量和 4K。Viva 使 AI 创作更简单、高效。海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。 文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频 目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。 但是一致性有一部分测试中保持的不是很好,同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。

  • 大模型之家:提供全面的人工智能大模型产业信息和创新价值研究。

    大模型之家是一个专注于人工智能大模型产业的平台,提供行业报告、技术创新动态、专家评测和奖项荣誉等信息。它通过整合行业资源,推动人工智能技术的创新和应用,帮助企业和个人更好地理解和利用大模型技术。

  • Productboard AI:利用人工智能增强产品团队的决策力和效率

    Productboard AI 是一款集成到产品管理平台中的人工智能工具,它通过分析和理解大量的用户反馈和数据点,帮助产品团队做出更明智的决策,提高工作效率,并加速产品从概念到市场的整个生命周期。它由 OpenAI 提供支持,确保数据安全和隐私保护,同时提供无与伦比的数据组合和针对产品管理工作的微调优化。

  • UserCall:人工智能语音用户访谈代理,深入洞察客户需求。

    UserCall是一款利用人工智能技术进行用户访谈的网站,它通过AI采访员与用户进行一对一的语音通话,从而收集高质量的用户反馈和洞察。这种技术可以大规模地进行用户访谈,提供比传统调查更深入的定性见解,同时节省时间和资源。UserCall的优势在于无需专业用户研究技能,能够自动进行智能跟进提问,帮助企业更好地理解客户需求,改进产品和业务。

  • VideoToPage:将视频或音频内容快速转换成结构化网页摘要的多功能工具。

    VideoToPage是一个高效的在线工具,它能够将视频或音频内容转换成结构化的网页摘要,支持多达96种语言,并具有98.5%的高准确率。用户无需订阅即可使用,特别适合需要将视频内容转换成文字资料、教程、博客文章、标准操作程序(SOP)等多种形式的个人和企业。产品提供快速的转录服务,支持长达5小时的视频,且5分钟以内的文件完全免费。此外,还提供内容的语义层次构建、内容类型定义、语义互连、富文本编辑、多语言理解等功能,使得内容的创建、编辑和发布变得简单快捷。

  • Fiskl:现代AI自动化全球会计解决方案,专为小型企业设计。

    Fiskl是一个多货币的全球会计平台,为小型企业、创业者、开发者和自由职业者提供全面的财务管理工具。它支持170多种货币和21,000多家银行,利用人工智能技术简化银行对账流程,实现零接触Stripe支付和银行对账。Fiskl的主要优点包括实时现金流和财务概览、自动化银行同步、全球支付能力、AI驱动的对账节省高达80%的对账工作量。Fiskl的定价策略包括特别优惠,例如年度订阅可享受50%的循环折扣,并提供30天免费试用期。

  • reap.video:一键将长视频转换为社交媒体短视频的工具。

    reap是一款基于人工智能的视频再利用工具,它能够将长视频内容一键转换成适合社交媒体的短视频。它通过先进的AI分析自动提取视频中最吸引人的片段,生成能够吸引观众的短片。reap支持多种语言,并提供了智能字幕生成、品牌模板定制等功能,帮助内容创作者提高内容的吸引力和可访问性,加速增长和变现。

  • 稀土掘金大模型子站:一站式AI资讯平台,连接开发者与AI技术的最新动态。

    掘金大模型子站是一个专注于AI领域的技术社区平台,提供从基础设施到最终应用的全景图,旨在帮助个人开发者和企业更好地理解和应用大语言模型技术。该平台通过提供资讯、工具和资源,促进AI技术的创新和应用,推动整个AI生态的发展。

  • Cubox:为学习而生的AI阅读器,高效筛选优质内容,提升阅读和学习效率。

    Cubox是一款专业的AI阅读器,旨在通过智能技术帮助用户筛选和整理阅读内容,提升阅读效率和学习效果。它具备自动高亮精彩内容、一键解读网页文章、专业级标注等功能,适用于需要大量阅读和学习的用户。产品背景信息显示,Cubox深受全球专业人士青睐,并且用户阅读的文章总数达到了23,325,802篇,显示了其广泛的用户基础和影响力。

  • InsideAI:实时分析工具,助你洞察竞品用户反馈。

    Inside AI 是一款基于人工智能技术的实时分析工具,它能够帮助用户追踪竞品的用户反馈和市场动态。该工具通过实时网络连接,分析用户评论,依托专有技术,为用户提供可操作的见解。它适用于独立开发者、初创公司、企业、分析师和风险投资公司等,帮助他们节省研究时间,找到正确的产品开发方向。

  • Glato AI:使用人工智能快速生成高质量产品视频

    Glato人工智能是一个通过人工智能技术快速生成高质量产品视频的平台。该产品能够自动生成引人入胜的短视频广告,帮助用户提高投资回报率,并节省创作者招聘等待时间。价格合理,定位于帮助企业提升市场营销效率。

今日大家都在搜的词: