首页 > AI头条  > 正文

高德FantasyWorld一经发布就登顶世界模型榜首,阿里空间智能再下一城!

2026-01-09 16:04 · 来源: AIbase基地

阿里巴巴旗下高德地图正式推出自研世界模型“FantasyWorld”,凭借海量真实导航数据优势,这一模型迅速在国际权威基准WorldScore Leaderboard上夺得综合得分第一,进一步扩展了阿里在AI基础模型领域的布局。FantasyWorld聚焦于高品质3D世界构建,正成为具身智能和自动驾驶领域的新焦点。

 FantasyWorld的核心技术突破

FantasyWorld旨在为具身智能与通用人工智能(AGI)提供高质量3D世界模型。其创新在于:在冻结的视频基础模型骨干上,增设可训练的几何分支,实现“视频潜变量”和“隐式3D场”的联合建模,仅需一次前向计算即可完成。

image.png

这一设计显著提升了生成视频的视觉真实感,同时大幅改善多视角一致性和几何保真度。相比近期其他几何一致性方法,FantasyWorld在多视角协同、风格一致性以及极端视角(如180°旋转)下的物体形状与纹理保持上表现出色。模型生成的3D潜变量可直接解码为深度图或点云,支持下游任务无需额外优化。

 登顶WorldScore:国际认可的实力证明

WorldScore是由斯坦福大学李飞飞团队主导的统一世界生成基准,涵盖静态/动态场景、可控性、一致性等多维度评估。目前,FantasyWorld在综合得分以及关键指标(如静态世界得分78.55、动态世界得分66.89)上位居榜首,超越多家国内外竞争模型。

相关论文已被ICLR2025、NeurIPS2025等顶会收录,高德方面表示模型将于近期开源,进一步推动学术与产业合作。

 实际应用落地:飞行街景引领空间智能新体验

FantasyWorld已率先应用于高德地图的“飞行街景”功能。商家仅需上传几段手机视频,即可免费生成高保真3D虚拟漫游街景,帮助用户提前“身临其境”了解餐厅布局、座位区等细节,同时助力线下商家提升流量。

这一功能被视为“技术平权”的体现,降低了专业3D建模门槛。高德还内部成立了具身业务部,探索机器人、机器狗等方向,结合空间智能全面转向物理AI。

 行业影响:世界模型时代加速到来

随着自动驾驶转向端到端视觉语言行动(VLA)方案,以及具身智能的迅猛发展,追求物理真实性和3D一致性的世界模型正变得至关重要。FantasyWorld的推出,不仅强化了阿里在多模态AI的版图,还凸显了中国企业在真实世界数据驱动下的空间智能优势。

AIbase观点:FantasyWorld标志着世界模型从视频生成向可交互3D模拟的跃进,将深刻影响AR/VR、机器人导航、数字孪生等领域的未来。高德凭借亿级用户数据积累,或将在物理AI赛道占据先机。AIbase将持续关注其开源进展与更多应用落地,为读者带来深度解读。

  • 相关推荐
  • 边看边创造,在 PixVerse R1 的实时世界模型里,你真是上帝

    想象一下,用一句话生成一个世界,一句话改变一个世界,一句话无限延伸一个世界。 1月13日晚,爱诗科技正式发布 PixVerse R1,它是“全球首个通用实时世界模型”,支持最高1080P 分辨率,基于原生多模态架构、自回归流式生成和瞬时响应引擎构建。

  • 全球首个通用实时世界模型PixVerse R1发布 视听媒体进入交互时代

    爱诗科技发布全球首个支持1080P实时生成视频模型PixVerse R1,实现“所想即所见、所说即所现”的实时交互体验。该模型基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术,将视频生成延迟降至“即时”响应,标志着AIGC视频生成从“静态输出”迈入“实时交互”新阶段。

  • 刚刚,蝉联Future X全球榜首的MiroMind发布全球最强搜索智能体模型

    MiroMind团队发布旗舰搜索智能体模型MiroThinker1.5。该模型基于“发现式智能”理念,强调通过主动研究、验证和修正来逼近真相,而非依赖海量参数记忆。其核心在于“交互式扩展”,将智能增长空间从模型内部参数扩展到与外部世界的交互。MiroThinker1.5仅用较小参数规模(如30B),在多项基准测试中性能比肩甚至超越万亿参数模型,同时推理成本显著降低。团队通过时序敏感训练沙盒等技术,使模型学会在信息不完备的真实条件下进行推演与修正,最终目标是培养模型成为善于向外求证、快速修正的智能体。

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • Meta轻量MR头显Phoenix曝光,阿里巴巴/微美全息开启智能眼镜激烈争夺战

    Meta正开发代号“Phoenix”的高端轻量级MR头显,计划2027年上半年上市。同时,阿里夸克AI眼镜首次OTA升级,增强AI能力并优化多项功能。智能眼镜赛道竞争激烈,2025年多家企业密集发布新品,整机重量普遍控制在29克至40克之间。微美全息等厂商积极布局,通过技术自研和场景拓展抢占市场份额。政策层面,智能眼镜被纳入数字和智能产品购新补贴范围,有望推动行业从小众迈向规模化普及新阶段。

  • AI的下一步是“行动”:YoooTek携首款智能硬件AI ONE亮相智能硬件展

    在1月8日至11日深圳举办的“阿里云通义智能硬件展”上,YoooTek品牌发布了首款AI硬件AI ONE。该产品是一款磁吸于手机背部的智能设备,旨在通过过滤无效通知、记录灵感并快速转化为行动计划,帮助用户实现“专注自由”。创始人肖睿哲在演讲中提出,AI硬件应从“对话”转向“行动”,并联合阿里云无影团队发布了Glass-Box隐私可信计算架构,从技术层面重新定义AI时代的数据安全与个人数字主权。

  • 20+大模型与70+智能体调度!李未可AI眼镜定义群体智能新范式

    文章以丹尼尔·卡尼曼的“快与慢”思维系统理论为引,介绍了李未可AI智能眼镜如何将AI融入人类最自然的“看、听、说”交互中。该产品通过“超能李未可”系统,结合自研大模型与多智能体协同的“群体智能”模式,实现了从快速直觉响应到深度理性思考的无缝衔接。它能高效处理实时翻译、信息查询等日常任务,并在需要时启动多专家智能体进行复杂规划与创意生成,致力于成为用户随身、随思、随需的“第二大脑”,让技术回归增强人类感知与创造能力的本质。

  • 完美收官!Yoosee 亮相阿里云通义智能硬件展

    2026年初,深圳阿里云通义智能硬件展上,Yoosee展示了其端云协同AI战略。通过星瀚AI大模型,Yoosee将传统监控从“被动提醒”升级为“主动理解”,用户可通过自然语言交互获取精准事件摘要。现场亮相的智能硬件,如AI观鸟器、低功耗摄像机等,均体现了软件定义摄像头的理念。Yoosee正从硬件销售转向“硬件+软件+云服务”的VSaaS模式,致力于成为AI视觉时代的“操作系统”提供商。

  • 从“看家”到“懂家”:海雀大模型摄像头,重塑家庭主动智能新范式

    1月8日至11日,海雀科技在阿里云通义千问智能硬件展上发布搭载AI大模型的海雀摄像头。该产品不仅是家用智能摄像头首次在设备端直接使用大模型,更标志着摄像头从被动记录工具向主动服务的AI伙伴转变。海雀摄像头能看、会听、会思考、会执行指令,深入家庭场景,为育儿家庭提供“全能陪聊搭子”与“安心守护者”,为有老人的家庭提供“可对话的养生助手”,并成为所有家庭的“智能管家”。通过千万用户数据,海雀精准切入需求,以“主动智能”引领行业,为AI硬件赛道提供了从技术堆砌到场景融合的参考范本。

今日大家都在搜的词: