首页 > AI头条  > 正文

AI进化新里程碑!大模型首次具备人类空间思维能力!

2025-06-23 09:50 · 来源: AIbase基地

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。

这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。更令人振奋的是,ViLaSR-7B 在著名的 VSI-Bench 测试中,达到了45.4% 的高分,成功超越了当前最先进的方法。

元宇宙 科幻 赛博朋克 绘画 (1)大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

ViLaSR-7B 的成功不仅是技术上的进步,更是向实现真正的视觉智能迈出了一大步。研究团队为模型设计了三阶段训练框架,以系统化地培养其空间推理能力。第一阶段,模型通过冷启动训练建立基础视觉能力;第二阶段,通过反思拒绝采样,模型学习到自我修正的能力;第三阶段,采用强化学习,进一步优化其推理效果。

传统的视觉语言模型主要通过 “视觉转文本” 的方式处理图像信息,但这一方法在许多场景中表现出局限性,如在复杂的迷宫中容易失去方向。相比之下,ViLaSR-7B 的 “边看边画” 方式,让模型能够更灵活地捕捉空间关系,通过交互式绘图来辅助思考。这种创新性的思维模式模拟了人类在解决空间问题时的过程,提升了模型的理解深度和推理效果。

ViLaSR-7B 的推出不仅展示了人工智能在视觉推理领域的潜力,还为未来的智能应用提供了新的方向。

  • 相关推荐
  • 新里程碑达成!智界交付量突破10万辆大关 累计大定订单超13万台

    智界汽车迎来里程碑:累计交付量突破10万辆,订单超13万台。4月17日上市的智界R7增程版售价29.98-31.98万元,搭载华为DriveONE高效电机、巨鲸增程专用电池包等先进技术,配备激光雷达方案的HUAWEI ADS 3.3高阶智驾系统。新车采用封闭式进气格栅和贯穿式LED灯带设计,基于华为"途灵"平台打造,配备空气悬架和可变阻尼减振器。动力方面首搭雪鸮智能静音增程系统,匹配1.5T增程器,WLTC百公里馈电油耗5.68L,新增53.4kWh巨鲸电池包,四驱Ultra版CLTC纯电续航331km,综合续航达1551km。

  • 周鸿祎:AI无法取代人类 因为学不会这一独特能力

    今天,周鸿祎发布视频谈及对AI的看法。他指出,尽管当下许多人担忧会被AI取代,但目前来看,AI还无法彻底取代人类。 周鸿祎认为,即便智能体再强大,也仍需人类的管理。人类未来的目标是管理、组织和训练智能体。 他以瑞典一家支付巨头为例进行阐述。该公司曾豪言自家AI客服集群能取代700名人类客服,起初成绩亮眼,AI客服处理了大部分客户咨询,效率显著提升。然

  • 视觉中国25周年 Getty CEO寄语共庆更多里程碑时刻

    视觉中国成立25周年之际,Getty Images CEO Craig Peters发表贺信,回顾双方自2005年建立的长期合作伙伴关系。合作促进了视觉中国产品服务的专业化进程,为全球客户提供优质视觉内容。Getty Images为视觉中国旗下cfp.cn提供覆盖国际、体育、文娱等多领域的资讯类图片和视频素材,同时汇聚全球摄影师和设计师的创意作品。过去20年,双方见证视觉艺术的影响力,未来将继续深化资源互通,挖掘视觉内容潜力,共建全球视觉内容桥梁,为用户呈现更具创意和高质量的视觉内容。

  • 李世石:AI不会“解读”……直觉依然属于人类!

    在技术逐渐超越人的时代,我们必须思考:如何在与科技同行的同时,不失人类本色……

  • 雷军再谈玄戒O1芯片:它是一个里程碑 要再做5年、10年形成商业闭环

    据雷军透露:小米从4年半前开始做玄戒O1,花费了135亿元;但小米从2014年就开始做芯片,前后做了11年。” 他也表示,芯片行业最核心的是长期主义,玄戒O1的发布只是第一步,我们可能还要继续再做5年、10年,直到在商业上形成闭环。 据悉,玄戒O1是小米第一款自主设计旗舰SoC,采用目前业界最先进的第二代3nm工艺,晶体管数量达190亿。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • o3模型的“叛变”:拒绝人类“中断”命令、自行篡改内部代码

    o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”……

  • 多邻国ceo打脸,放弃“AI员工”战略,称:仍需人类员工!

    又一家公司意识到,以牺牲人类员工为代价,全力投入人工智能或许可以省钱,但用户的强烈反对可能会抵消其经济效益……

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

今日大家都在搜的词: