首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

2023-10-12 14:38 · 稿源:站长之家

要点:

1. 苹果AI/ML团队与哥伦比亚大学研究团队合作开发的多模态大模型“雪貂”(Ferret)能够在图像中准确找到交通信号灯,比GPT-4V表现更出色,提高了大模型在“看说答”任务中的精确度。

2. Ferret的关键创新在于将引用(referring)和定位(grounding)两方面的空间理解能力紧密结合,使模型能够同时理解给定区域的语义和找到对应目标。

3. Ferret采用混合区域表示方法,结合了离散坐标和连续特征,可以接受多样化的区域输入,如点、边界框和自由形状,并生成每个定位对象的坐标,这一方法在多任务评估中表现出色。

站长之家(ChinaZ.com)10月12日 消息:苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”(Ferret)已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。

Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。

image.png

项目地址:https://github.com/apple/ml-ferret

论文地址:https://arxiv.org/pdf/2310.07704.pdf

Ferret的核心创新在于将引用和定位的两方面空间理解能力更紧密地结合在一起。引用指模型能够准确理解给定区域的语义,而定位则要求模型在图像中找到对应目标。

传统的多模态大模型通常只能单独使用引用和定位,但Ferret提出了一种新型的混合区域表示方法,使模型能够同时理解语义并找到目标。

image.png

这一方法使用混合区域表示,结合了离散坐标和连续特征。模型可以接受多样化的区域输入,包括点、边界框和自由形状,并能生成每个定位对象的坐标。

这一独特的方法使Ferret在多任务评估中表现出色,包括图像局部区域的引用/定位、语义、知识和推理能力。特别是在需要指代和视觉grounding的新任务上,Ferret表现卓越,提高了描述图像细节的准确性,减少了模型的幻觉。

最令人骄傲的是,Ferret是由一支全华人团队开发的,包括苹果AI/ML团队和哥伦比亚大学的研究团队。这一成就突显了中国在多模态大模型领域的卓越研究实力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得显著的突破。

举报

  • 相关推荐
  • 北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

    北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。团队宣布LLaVA-o1的代码、预训练权重、数据集等即将全部开源。

  • 不做Sora背后:百度的多模态路线是什么?

    当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。Sora再掀视频生成风潮,却传出李彦宏内部讲话“Sora无论多么火,百度都不去做”。大量的行业应用所产生的数据,又能为AGI的发展提供丰富的养分,形成良性循环,推动数据飞轮的高速运转,从加快我们迈向AGI的步伐。

  • AI日报:阿里云逆天大模型Qwen2.5-Turbo;ElevenLabs支持打造对话AI智能体;Mistral推最强开源多模态模型Pixtral Large

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里云发布逆天大模型Qwen2.5-Turbo一口气读完十本小说,推理速度提升4.3倍!阿里云推出的Qwen2.5-Turbo大语言模型在上下文处理能力和推理速度上都取得了革命性的突破,令人期待其�

  • AI日报:科大讯飞星火多模态交互大模型上线;Anthropic发布提示词优化新功能;腾讯AI智能工作台ima上线Windows版

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、科大讯飞星火多模态交互大模型上线实现“语音、视觉、数字人交互”三合一科大讯飞最新推出的讯飞星火多模态交互大模型标志着其从单一语音交互技术拓展到音视频流实时多模态交互的新阶段。多家汽车制造商参与认购,推动Robotaxi技术合作与全球布局。

  • 超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!

    法国著名开源大模型平台Mistral.ai,开源了超大多模态模型——PixtralLarge。PixtralLarge有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手leChat目前正在使用的视觉模型。LeChat提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。

  • 中聚AI女娲大模型:专注企业服务的智能AI,让企业难题一点就通!

    在企业经营日益复杂的当下,各类繁琐的管理和文书工作常让人头疼。中聚企服团队带来了重磅新品——中聚AI,这款智能助手是基于中聚企服自主开发的“女娲大模型”,经过长时间的训练和测试,专为解决企业运营难题而生。如今,中聚AI已覆盖几乎所有企业经营所需的知识领域,只需通过中聚企服小程序轻松一点,便能获得精准的解决方案。中聚AI:一站式智能办公助手,�

  • 首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

    【新智元导读】Meta最近开源了一个7B尺寸的SpiritLM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务能捕捉和再现语音中的情感和风格。在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音、自动语音识别或翻译,在其他模态数据和任务上的泛化能力十分有限。研究人员还直接评估了模型对输入提示的处理能力,结果发现,无论是哪种提示,模型都能得到很高的评分,表明还有很大的空间来进一步提高模型在保持情感表达方面的能力,也意味着,智能体在理解和生成情感丰富的内容方面还有很大的潜力可以挖掘。

  • 被迫转型后,9人团队AI写作做到500万美元ARR

    JenniAI是一家专注于AI学术写作的初创公司。公司员工一共才九人,却在今年达成了500万美元的ARR,人均年创收56万美元,估值达2500万美元。对David言SEO是一个偏长周期的工作,无法满足创业初期要快速反馈的需求;付费广告需要优质素材及大量用户数据才能实现有效运转,同时很费钱,所以JenniAI坚持只PMF跑通、用户的LTV是CAC三倍、能短期打正的情况下考虑付费广告。

  • 指令层级,帮助AI大模型防御恶意攻击

    随着ChatGPT等生成式AI产品被广泛应用在AI代理/客服、虚拟助手等领域,在安全方面会遭遇黑客攻击、恶意文本提示等难题。使用特定的提问方式,可以让ChatGPT输出原始私密训练数据。即使面对未见过的恶意攻击指令,经过上下文蒸馏训练的模型也能够更好地学习到这些知识,以识别和处理新的安全威胁。

  • 50多款AI眼镜来了,大模型找到了应用救星?

    一开始并不被扎克伯格重视的RaybanMeta现在已经成为了硅谷科技达人的时尚单品,发售至今9个月,RaybanMeta眼镜第二代已经卖出了100多万台第一代产品在1年半内仅仅卖出去了30万台。这款由Meta和Rayban联名推出的AI眼镜,第二代因为接入了Meta自研的大模型LIama3,提升了摄像/拍照水平,实现语音交互、物体识别、文字翻译等功能,凭借不错的产品力,一下子成为了智能硬件领域的一匹黑马。强大如Meta一年也才卖出百万台,这是手机厂商们发布新品时3天就能达到的销量,中国的AI眼镜或许容不下太多玩家。