首页 > 业界 > 关键词  > Ferret最新资讯  > 正文

苹果的「Ferret」是一种新的开源多模态机器学习模型

2023-12-25 11:35 · 稿源:站长之家

苹果公司与康奈尔大学的研究人员于 10 月份悄然推出了一款名为首次在 Github 上发布">「Ferret」的开源多模态大型语言模型(LLM)。这一研究成果首次在 Github 上发布,但并未引起太多关注,没有进行任何宣布或庆祝。Ferret 的代码与 Ferret-Bench 一同于 10 月 30 日发布,而检查点版本则于 12 月 14 日推出。

ferret_fig_diagram_v2.jpg

图片来自 Ferret

据 VentureBeat 报道,虽然起初并未受到太多关注,但在周六,这一发布对 AI 研究人员来说变得更为重要。一家医疗 AI 非营利组织的负责人 Bart De Witte 在 X 平台上发帖称这一「错过」的发布「证明了苹果对有影响力的 AI 研究的承诺」

Ferret 的开源发布采用非商业许可,因此在当前状态下不能商业化。然而,它总有可能以某种方式被用于未来的苹果产品或服务中。

苹果 AI/ML 研究科学家 Zhe Gan 在 10 月的一条推文中解释了 Ferret 的用途,即作为一个可以「在图像中的任何位置、以任何精度、使用任何形状的区域进行参考和定位」的系统。简而言之,该模型可以检查在图像上绘制的区域,确定其中对用户查询有用的元素,识别它,并在检测到的元素周围绘制边界框。然后,它可以将识别出的元素作为查询的一部分,然后以典型的方式做出响应。

例如,高亮显示图像中的动物并询问 LLM 动物是什么,它可以确定动物的物种,以及用户指的是一群动物中的个体。然后,它可以使用图像中检测到的其他项目的上下文提供进一步的响应。

这一发布对研究人员来说很重要,因为它表明苹果愿意在 AI 工作上更加开放,而不是采取其通常的保密立场。

苹果面临的另一个问题是基础设施,虽然它正在努力增加 AI 服务器的数量,但目前可能没有足够的规模来与例如 ChatGPT 等进行竞争。尽管苹果可以与其他公司合作扩大其能力,但另一种方法是像它刚刚做的那样,即发布一个开源模型。

Github 发布中的一个有趣元素是,Reddit 的 r/Apple 注意到 Ferret 是「在拥有 80GB 内存的 8 个 A100 GPU 上训练的」。考虑到苹果与 Nvidia GPU 采用的历史,这被视为对 GPU 制造商的罕见认可。

查看 Ferret 更多介绍:https://top.aibase.com/tool/ml-ferret

举报

  • 相关推荐
  • AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • 百度发布文心大模型5.0正式版:2.4万亿参数 原生全模态建模

    今日,百度文心Moment”大会在上海召开。 大会现场,百度正式发布了文心大模型5.0正式版。 据介绍,该模型基于原生全模态建模,拥有2.4万亿参数,支持文本、图像、音频、视频等多种信息理解输出。 目前,文心5.0正式版可在百度千帆平台调用,文心一言官网、百度慧播星及文心助手等其他百度AI产品也已接入。 此前,文心5.0以1460分位列LMArena文本榜国内第一、全球第八�

  • HARRISONWORLD亮相深圳BIG独立游戏展,展会旅程圆满收官

    HARRISONWORLD携旗下游戏《风水喵将》和《别拽了!烤串师傅》亮相深圳BIG独立游戏展,感谢主办方提供展示舞台及到场玩家的支持。现场玩家试玩踊跃,反馈积极,坚定了公司打造全新游戏发行标准、传递更多杰出游戏的决心。两款游戏将分别于2月2日和2月4日正式发售,线下展会之旅仍在继续,期待与更多玩家相遇。

  • 智象未来创始人兼首席执行官梅涛博士当选2025 ACM Fellow

    1月21日,国际计算机学会(ACM)公布2025年度ACM Fellow名单,智象未来创始人兼首席执行官梅涛博士成功当选。ACM Fellow是该组织授予会员的最高荣誉,旨在表彰在计算机领域做出重大且持久贡献的个人。今年全球共71位学者获此殊荣,梅涛博士因在多媒体分析、检索与应用领域的重要贡献入选。他是人工智能、计算机视觉和多媒体领域的全球知名学者,发表论文被引用超四万次,拥有70多项专利,并主导研发了多款全球数百万日活用户的商业产品。作为智象未来首席科学家,他带领团队深耕多模态对齐、跨模态语义理解等关键技术,推动生成式AI实现从算法创新到产业应用的全链路突破。智象未来自主研发的智能大模型在技术层面实现多项里程碑式创新,其开源图像生成大模型HiDream-I1在国际权威榜单中登顶,成为首个跻身全球第一梯队的中国自研生成式AI模型。此次获奖是国际权威计算机专业组织对梅涛博士及智象未来在人工智能领域持续创新与技术贡献的高度认可。

  • 一年从0到300万美元ARR,非典型AI创业者斩获千万融资

    今天,ListenHub 官宣完成200万美元天使+轮融资。 8月份,在选题中,我们观察过 ListenHub,但当时分析下来,AI 播客很难跟真人播客竞争,虽然入局者众多、资本也愿意押注,但能跑出来的产品几乎没有。而 ListenHub 的思路与其他产品很不一样,并不是给 c 端消费的,是给 Pro 用户的创作工具。 AI 音频创业,除了 Suno、Speechify、Elevenlabs 等最早入局,并占据各自细分方向头部位置�

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • 苹果iPhone 17e三月见:首次灵动岛+MagSafe!升级A19

    iPhone 17e将在今年3月发布,这是苹果最便宜的旗舰手机,虽然在国内表现稍差,但纵观整个全球市场依然有不错的销量。 这次iPhone 17e带来了大幅升级,很多都是去年被大家诟病的配置。 屏幕将从iPhone 16e的刘海屏升级为灵动岛挖孔屏,支持实时显示活动等交互功能,与iPhone 17系列标准版设计对齐,维持6.1英寸OLED屏幕,刷新率为60Hz,无高刷。 核心搭载降频版A19”,相比标准�

  • 它石智航 WIYH 数据集正式开源:全球首个具身 VLTA 多模态数据,加速具身智能真实世界落地

    它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH,填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式,破解了数据采集成本高、仿真数据迁移难等痛点,为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据,覆盖10余种核心场景全链路任务。它石还�

  • 四相科技亮相CES2026 多模融合高精度定位方案赋能全球工业智能化升级

    在CES2026上,国内物联网UWB定位厂商四相科技展示了其第二代UWB定位技术为核心的解决方案。该方案融合GNSS与蓝牙定位,构建“硬件+软件+算法”一体化服务体系,精准适配工业制造复杂场景需求,为智慧工厂数字化注入核心动能。其产品采用CH9高频信道,有效避免信号干扰,在复杂工况下测距成功率稳定在98%以上。方案还搭载恒迹寻分析引擎与恒迹云平台,可与企业生产管理系统高效对接,实现显著降本增效。四相科技CEO表示,公司深耕UWB技术十余年,希望将自主创新的UWB技术推向世界,以“From China for Global”姿态参与全球工业定位标准共建。

今日大家都在搜的词: