苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

2023-10-12 14:38 · 稿源：站长之家

要点:
1. 苹果AI/ML团队与哥伦比亚大学研究团队合作开发的多模态大模型“雪貂”（Ferret）能够在图像中准确找到交通信号灯，比GPT-4V表现更出色，提高了大模型在“看说答”任务中的精确度。
2. Ferret的关键创新在于将引用（referring）和定位(grounding)两方面的空间理解能力紧密结合，使模型能够同时理解给定区域的语义和找到对应目标。
3. Ferret采用混合区域表示方法，结合了离散坐标和连续特征，可以接受多样化的区域输入，如点、边界框和自由形状，并生成每个定位对象的坐标，这一方法在多任务评估中表现出色。

站长之家（ChinaZ.com）10月12日消息:苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”（Ferret）已经成功突破了谷歌人机验证码的难题，能够轻松识别图像中的交通信号灯并准确圈出其位置，其性能直逼GPT-4V。

Ferret的关键在于改进了大模型在“看说答”任务中的精确度，这得益于其出色的图文关联能力。

项目地址:https://github.com/apple/ml-ferret

论文地址:https://arxiv.org/pdf/2310.07704.pdf

Ferret的核心创新在于将引用和定位的两方面空间理解能力更紧密地结合在一起。引用指模型能够准确理解给定区域的语义，而定位则要求模型在图像中找到对应目标。

传统的多模态大模型通常只能单独使用引用和定位，但Ferret提出了一种新型的混合区域表示方法，使模型能够同时理解语义并找到目标。

这一方法使用混合区域表示，结合了离散坐标和连续特征。模型可以接受多样化的区域输入，包括点、边界框和自由形状，并能生成每个定位对象的坐标。

这一独特的方法使Ferret在多任务评估中表现出色，包括图像局部区域的引用/定位、语义、知识和推理能力。特别是在需要指代和视觉grounding的新任务上，Ferret表现卓越，提高了描述图像细节的准确性，减少了模型的幻觉。

最令人骄傲的是，Ferret是由一支全华人团队开发的，包括苹果AI/ML团队和哥伦比亚大学的研究团队。这一成就突显了中国在多模态大模型领域的卓越研究实力。通过这一研究，Ferret为解决图像理解和多模态任务提供了新的方向，有望在人机交互、智能搜索等领域取得显著的突破。

（举报）

相关推荐

关键词：

火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

火山引擎近日升级企业级AI搜索助手，底层模型升级至豆包大模型1.6，全面提升搜索、推荐、问答能力。该平台支持“开箱即用”，企业可快速构建专属对话式搜索助手，已在电商导购、视频新闻、AI搜图、智能硬件等多场景落地，帮助优化产品体验，为业务增长注入新动能。

火山AI搜索引擎豆包大模型1.6 企业级搜推AI助手
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

大模型技术推动人工智能成为生产力核心，但也放大数字风险。专家指出AI安全需构建覆盖模型安全、交互检测、权限管控的智能底座，通过标准化体系实现全生命周期防护。腾讯云等企业正通过网关架构、红队演练等方式提升安全能力，强调需政企学研协同构建开放生态，在创新中守住安全底线。

大模型技术智能体应用人工智能
金融行业用好大模型，只有“垂直”一个解

文章探讨大模型在金融等复杂业务场景的落地挑战，指出通用模型难以满足行业对准确性、可解释性及合规性的高要求。垂直模型通过内化行业核心知识与能力，成为解决复杂业务问题的关键路径。实践显示，金融垂直模型已在营销、客服、风控等场景实现显著成效，如提升效率80%、降低风险。未来需通过数据飞轮、深度适配等技术实现模型持续迭代，构建一站式金融垂直模型生产工场。

金融大模型垂直模型 Agentic
00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

上海交大本科生徐菲悦为第一作者的论文《大型语言模型鲁棒性与对齐的多维评估框架》被IEEE S&P 2026录用。该研究提出“安全魔方”评估体系，构建覆盖攻击、防御与判定三大维度的多指标框架，系统化刻画LLM安全性，新增攻击稳定性、跨模型迁移性等关键度量，弥补传统单一指标不足，为研究比较、安全基线制定及监管审查提供可操作的通用量表。

大型语言模型安全评估 IEEE
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在11.11大促期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新，打破传统直播边界。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营，提升内容创作效率。这些举措为用户带来沉浸式购物体验，引领直播电商技术革新方向。

京东11.11 立影3D技术 JoyAI大模型
火山引擎：豆包大模型日均tokens使用量突破30万亿

今日在FORCE LINK AI创新巡展武汉站上，字节跳动旗下火山引擎披露最新大模型token调用数据。火山引擎总裁谭待现场表示，豆包大模型使用量从2024年5月1200亿tokens增长253倍至今年9月的超30万亿tokens。在企业市场，据IDC9月报告，2025年上半年，中国公有云大模型调用量达536.7万亿tokens。

火山引擎豆包大模型 token调用数据
快手进军AI Coding，开发工具、模型和Maas平台齐登场

10月23日，快手StreamLake发布全新AI编程产品矩阵，以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持，KAT-Coder在权威测试中性能超越GPT-5，平台保障99.95%服务可用性。该生态旨在通过技术普惠，为企业与开发者提供颠覆性研发体验，推动AI编程普及。

AI编程快手StreamLake CodeFlicker
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
金蝶征信“金融风控大模型” 摘得AFAC2025大奖

一家社区水果店凭借收款码的36个月交易记录，将银行贷款额度从7万元提升至10万元。这揭示了中国超3亿商户正通过二维码流水数据构建数字信用体系：使用收款码满六个月的商户获贷可能性超60%，三年后跃升至90%。此类高频实时数据正重塑风控逻辑——不看抵押、不看报表，只忠实记录每笔交易背后的经营事实。金蝶征信凭借AI与知识图谱技术，穿透至6层交易链条，构建包含4.45亿交易关系的产业互联网图谱，助力金融机构实现精准信贷匹配。其智能风控系统已推动合作机构放贷额度提升50%，标志着风控模式从“经验驱动”向“数据智能驱动”的转型。

社区水果店贷款额度收款码融资

今日大家都在搜的词：

热文

3 天
7天

苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

火山 AI 搜索引擎升级：大模型时代重塑用户体验与业务增长

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

AI防护，与时俱进：信通院X电子科大X腾讯云共话大模型安全

金融行业用好大模型，只有“垂直”一个解

00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

火山引擎：豆包大模型日均tokens使用量突破30万亿

快手进军AI Coding，开发工具、模型和Maas平台齐登场

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

金蝶征信“金融风控大模型” 摘得AFAC2025大奖

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

华为nova Flip S小折叠开售：首发3388元起

华为鸿蒙HarmonyOS 6公测版开启推送

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版外观公布：屏幕视觉四等边

华为余承东：鸿蒙5终端设备数量突破2300万

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机