首页 > AI头条  > 正文

腾讯开源具备原生3D重建能力的超长程世界模型:HunyuanWorld-Voyager

2025-09-02 14:51 · 来源: AIbase基地

近日,腾讯正式发布了HunyuanWorld-Voyager,这是一种创新的视频扩散框架,旨在通过单张输入图像生成具备世界一致性的3D 点云,支持用户按自定义的相机路径进行沉浸式探索。

image.png

官方表示,这全球首个具备原生3D 重建功能的超远距离世界模型,重新定义 AI 驱动的 VR、游戏和仿真空间智能。此模型不仅能够生成精确对齐的深度信息和 RGB 视频,还能够在不进行后处理的情况下,直接用于高质量的三维重建。

  • 直接3D 输出:无需 COLMAP 等工具即可将点云视频导出为3D 格式,实现即时3D 应用。

  • 创新的3D 内存:引入可扩展的世界缓存机制,确保任何摄像机轨迹的几何一致性。

  • 顶级性能:在斯坦福 WorldScore 测试中排名第一,在视频生成和3D 重建基准测试中表现出色

HunyuanWorld-Voyager的架构包含两个关键组件。首先是 “世界一致的视频扩散”,该组件提出了一种统一的架构,可以基于已有的世界观测,同时生成准确对齐的 RGB 视频和深度视频序列,从而确保全局场景的一致性。其次是 “长距离世界探索”,它采用了一种高效的世界缓存机制,结合点云剔除和自回归推理能力,支持迭代场景扩展,并通过上下文感知的一致性技术实现平滑的视频采样。

为了训练 HunyuanWorld-Voyager 模型,研究团队构建了一套可扩展的数据构建引擎。这一自动化视频重建流水线能够对任意输入视频自动估计相机位姿和度量深度,因此无需依赖人工标注,从而实现大规模、多样化训练数据的构建。基于此流水线,HunyuanWorld-Voyager 整合了真实世界采集和虚幻引擎渲染的视频资源,构建了一个包含超过10万个视频片段的大规模数据集。

在实验评估中,HunyuanWorld-Voyager 在视频生成质量方面表现出色。与四种开源的相机可控视频生成方法进行了对比,结果显示该模型在 PSNR、SSIM 和 LPIPS 等指标上均优于其他模型,证明了其卓越的视频生成质量。同时,在场景重建方面,HunyuanWorld-Voyager 的生成视频在几何一致性上也显现出更好的效果。

此外,HunyuanWorld-Voyager 在 WorldScore 静态基准测试中获得了最高分,证明了其在相机运动控制和空间一致性方面的优越性。这一成果不仅展示了混元世界模型的潜力,还为未来的3D 场景生成技术开辟了新路径。

划重点:

🌍 HunyuanWorld-Voyager 能够基于单张输入图像生成具有世界一致性的3D 点云,支持用户沉浸式探索。  

🎥 该模型同时生成精确对齐的深度信息和 RGB 视频,适用于高质量三维重建。  

🏆 在多个测试中,HunyuanWorld-Voyager 在视频生成质量和场景重建效果上均优于其他模型。  

  • 相关推荐
  • 阿里发布世界模型HappyOyster 1.0:一句话创造一个虚拟世界 可实时交互

    阿里云发布交互式开放世界模型HappyOyster 1.0,用户输入文字或图片即可生成可实时互动的3D数字世界。该模型学习现实物理逻辑,画面、光影可持久统一,支持长时连续探索;新增世界探索与实时导演模式,具备人物动作与环境反馈等完整互通能力,支持二次创作与开放分享,主打低门槛虚拟内容生产。

  • 超70万用户同步升级!蔚来世界模型新版本推送:老车主同享

    蔚来正式推送新版世界模型,覆盖超70万名车主,购车满四年老用户同样免费更新。作为唯一同时搭载英伟达Orin-X与自研神玑NX9031双平台同步发布智驾版本的车企,不同硬件车型无需单独调试即可统一升级。软硬件采用统一架构实现跨车型通用,训练体系新增监督微调环节,结合真实驾驶数据优化操作逻辑,兼顾稳定性与拟人度。新版实现国内首个端到端直控方案,直接输出控制信号降低延时,不依赖高精地图即可稳定选路,并新增潮汐车道识别等功能,通过长时序路况预判提升辅助驾驶实用性与舒适度。

  • 具身智能世界模型公司与机器人本体公司的区别

    2026年,具身智能从“机器人硬件竞争”转向“大模型能力竞争”,评判标准不再仅看机器人能否站立、行走,更看重其理解环境、拆解任务和操作物体的能力。行业涌现出“世界模型公司”,如灵初智能、智平方、银河通用等,它们围绕数据、模型、本体和场景构建闭环,强调数据采集、VLA模型、灵巧操作和真实场景反馈。未来竞争核心在于模型能力、数据体系、本体工程与场景反馈的系统整合,谁能将高质量数据转化为可迁移的模型能力,谁就能在通用具身智能时代占据核心位置。

  • 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急

    2026北京智源大会聚焦世界模型,自变机器人CTO王昊提出“事件驱动的世界模型”理念,强调智能在特定尺度涌现。其发布的事件级世界模型WALL-WM,以事件为数据边界统一语言、视觉和动作,在具身视频生成、隐式3D感知及真机测试中表现优异,全面超越现有模型。自变机器人还开源了VLA模型和低成本数据采集方案,推动具身智能发展。

  • 科技照进现实 鸿蒙原生首个3D大模型AI应用V2Fun正式发布

    6月13日,华为HDC2026大会上,Vertex Lab旗下V2Fun鸿蒙原生App正式亮相并上线应用市场。作为鸿蒙首个3D大模型AI原生应用,V2Fun通过自研大模型,实现从2D照片到3D模型的极简转化,用户仅需拍照或上传图片,数十秒即可生成高精度3D模型,支持360°预览、3D打印格式导出及四种风格化图片生成。App深度集成华为图库、近场分享及跨设备3D打印互联,配合Web端专业管线,实现“移动端起草、专业端深化”的无缝衔接,让3D创作人人可用。

  • 智源大会上,智平方郭彦东终结世界模型与VLA之争,并直接抛出下一代机器人大脑答案

    在北京智源大会上,具身智能的技术路线之争成为焦点,即机器人应走VLA(多模态融合模型)还是世界模型路线。智平方创始人郭彦东博士明确表示,世界模型并非VLA的替代品,而是其核心组成部分,二者需深度融合。他提出,融合后类脑架构将成为下一代机器人大脑的重要演进方向。智平方已推出融合世界模型的Video2Act架构和类脑系统NeuroVLA,后者模仿人脑分级结构,显著提升机器人稳定性、实时性和能效,标志着机器人从“会推理”向“会本能反应”的质变。

  • 跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题

    今日,京东宣布推出JoyAI-Echo长音视频生成框架,号称解决行业长期头疼的长视频生成三大难题:角色易崩、声音乱变、生成缓慢。 目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。 京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。 据了解,JoyAI-Echo内置跨模态音视频�

  • 腾讯云面向Agent升级数据平台:DataBuddy、WeData与AI原生数据底座亮相

    腾讯云宣布面向Agent升级全栈数据平台,通过DataBuddy、WeData和AI原生数据底座三层架构,构建人机协同的智能入口、统一控制面和数据底座。DataBuddy作为生产级数据智能体,可自动完成数据建模、ETL开发等复杂任务,将重复开发工作量降低80%,研发效率提升5-10倍。WeData通过统一语义层将自然语言转SQL准确率提升至90%以上。AI原生数据底座从存储、计算、系统到数据分析四层面智能化升级,支持多模态数据处理和Agent协同工作。同时,面向政务、金融等行业升级TBDS私有化平台,加速Agent规模化落地。

  • 超节点提效30%!华为官宣昇腾亲和大模型:6月30日开源上线

    华为开发者大会(HDC 2026)上,华为常务董事、终端BG董事长余承东在大会主题演讲中宣布,推出昇腾亲和大模型,覆盖算法架构到训练推理全流程。 昇腾亲和大模型是业界首个DSA SWA独立分层混合架构。针对MoE(混合专家)模型专家路由问题进行了专项优化。 昇腾原生训练实现双重性能提升,训练效率提升30%,512K长序列训练吞吐提升50%

  • 国际评测夺冠,考拉悠然无界世界模型打造空间智能核心竞争力

    2026年5月29日,WorldArena视频质量赛道最终结果揭晓。考拉悠然联合上海码极客、同济大学空间智能团队打造的悠然无界世界模型,开源版BLM获全球第一,闭源版BWM-Fast获全球第二。该模型以数据增强、智能增广策略提升数据利用效率,基于DiT架构引入首帧引导、动态记忆及双通路动作控制,在时空连贯性、动作可控性与物理一致性上全面领先,大幅降低训练成本。WorldArena从六大

今日大家都在搜的词: