要点:
1. 苹果AI/ML团队与哥伦比亚大学研究团队合作开发的多模态大模型“雪貂”(Ferret)能够在图像中准确找到交通信号灯,比GPT-4V表现更出色,提高了大模型在“看说答”任务中的精确度。
2. Ferret的关键创新在于将引用(referring)和定位(grounding)两方面的空间理解能力紧密结合,使模型能够同时理解给定区域的语义和找到对应目标。
3. Ferret采用混合区域表示方法,结合了离散坐标和连续特征,可以接受多样化的区域输入,如点、边界框和自由形状,并生成每个定位对象的坐标,这一方法在多任务评估中表现出色。
站长之家(ChinaZ.com)10月12日 消息:苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”(Ferret)已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。
Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。
项目地址:https://github.com/apple/ml-ferret
论文地址:https://arxiv.org/pdf/2310.07704.pdf
Ferret的核心创新在于将引用和定位的两方面空间理解能力更紧密地结合在一起。引用指模型能够准确理解给定区域的语义,而定位则要求模型在图像中找到对应目标。
传统的多模态大模型通常只能单独使用引用和定位,但Ferret提出了一种新型的混合区域表示方法,使模型能够同时理解语义并找到目标。
这一方法使用混合区域表示,结合了离散坐标和连续特征。模型可以接受多样化的区域输入,包括点、边界框和自由形状,并能生成每个定位对象的坐标。
这一独特的方法使Ferret在多任务评估中表现出色,包括图像局部区域的引用/定位、语义、知识和推理能力。特别是在需要指代和视觉grounding的新任务上,Ferret表现卓越,提高了描述图像细节的准确性,减少了模型的幻觉。
最令人骄傲的是,Ferret是由一支全华人团队开发的,包括苹果AI/ML团队和哥伦比亚大学的研究团队。这一成就突显了中国在多模态大模型领域的卓越研究实力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得显著的突破。
(举报)