GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

2024-01-21 10:23 · 稿源：新智元公众号

多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Altman最近在世界经济论坛上发言，称达到人类级别的AI很快就会降临。但是，正如LeCun一直以来所言，如今的AI连猫狗都不如。现在看来的确如此。GPT-4V、LLaVA等多模

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
DeepSeek更新至V3.1 Terminus版本：两大升级

9月22日，深度求索宣布DeepSeek V3.1已更新至Terminus版本，官方App、网页端、小程序与API模型同步升级。本次更新在保持模型原有能力基础上，针对用户反馈进行改进：优化语言一致性，缓解中英文混杂、异常字符等问题；提升Code Agent与Search Agent表现。官方表示新版本输出效果更稳定，各领域评测表现优异。开源版本已在Hugging Face和ModelScope平台发布。

DeepSeek V3.1 Terminus版本
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
2025视觉中国&500px视觉盛典贵州站开启招募！

至誉科技展台提供免费笔记本屏幕校色服务，现场参与互动可领取贴纸、钥匙扣等礼品。美图云修、东芝、索尼、适马、永诺、雷克沙、富图宝、神牛、艺卓、唯卓仕、斯丹德等品牌均设有产品体验区和互动活动，参与者可通过关注社交媒体账号、打卡拍照等方式赢取显示器、相机镜头、存储设备及周边礼品。现场还可体验专业校色仪及新品设备，机会难得。

展位活动免费校色互动抽奖
聚焦“视觉+机器人”！思看科技与艾利特机器人达成战略合作

9月22日，思看科技与埃利特机器人在苏州签署战略合作协议。双方将聚焦“视觉+机器人”领域，在资源共享、市场拓展、生态共建等方面深化合作，共同推动机器人视觉感知与决策控制、人机交互等关键技术的创新突破。思看科技在三维视觉数字化领域技术领先，埃利特机器人拥有协作机器人全栈自研能力，双方优势互补，致力于在高端制造场景中实现“手眼合一”，赋能行业智能化转型。此次合作标志着两家企业在机器人与视觉融合领域迈出关键一步，未来将共同推动三维视觉与机器人技术的深度协同创新。

思看科技艾利特机器人战略合作
百度文心大模型X1.1正式发布：超越DeepSeek R1、打平GPT-5

今天，在WAVE SUMMIT深度学习开发者大会2025上，百度文心大模型X1.1正式发布，在事实性、指令遵循、智能体等能力上均提升显著。百度王海峰介绍，文心大模型X1是基于文心大模型4.5训练而来的深度思考模型，升级后的X1.1主要采用了迭代式混合强化学习训练框架。一方面通过混合强化学习，同时提升通用任务和智能体任务的效果；另一方面通过自蒸馏数据的迭代式生产及训练

百度文心大模型深度学习智能体
德国莱茵TÜV权威验证！澄一科技独创多气流组合IQV净烟技术亮相IFA展

澄一科技在IFA展上发布搭载IQV净烟技术的净烟机，通过高速风机与三种气流组合技术，从源头捕捉油烟颗粒，有效防止油烟泄漏和PM2.5污染。该技术解决了传统油烟机吸力不足、清洁困难等问题，获得德国莱茵TÜV认证，推动行业从“大风量”向“净烟效果”转型，展示了中国企业在厨电领域的创新实力。

油烟机净烟技术米家生态链
APOLLO年中展望：在滞胀的十字路口——下一步是什么？

美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%，为近90年来最高水平，加剧市场不确定性。经济学家预测经济增长放缓、通胀上升，利率将长期维持高位。企业投资计划波动加剧，消费者信心下滑，预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%，但专家认为短期内不会出现全面衰退，供需双方均面临阻力。全球经济增长预期下调至2.6%，低于此前3%的预期。

美国关税经济增长市场波动
远东股份：ALL IN“电能+算力+AI”，智能驱动未来

远东股份（600869）凭借“电能+算力+AI”战略，在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术，自主研发高导铝绞线提升输电效率，产品应用于多条国家级特高压线路。同时布局液冷技术研发，为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设，助力制造业智能化升级和绿色高效算能模式构建。

人工智能能源算力

今日大家都在搜的词：

热文

3 天
7天

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

DeepSeek更新至V3.1 Terminus版本：两大升级

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

2025视觉中国&500px视觉盛典贵州站开启招募！

聚焦“视觉+机器人”！思看科技与艾利特机器人达成战略合作

百度文心大模型X1.1正式发布：超越DeepSeek R1、打平GPT-5

德国莱茵TÜV权威验证！澄一科技独创多气流组合IQV净烟技术亮相IFA展

APOLLO年中展望：在滞胀的十字路口——下一步是什么？

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

鸿蒙智行尚界H5小订破15万台：明晚上市

微信员工回应新iPhone提示空间不足：代码Bug所致

AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

iPhone17 Pro Max续航实测夺冠 iPhone Air表现不俗

小米发布REDMI 15R 5G手机：售价1099元起搭载6000mAh电池

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

站长商机