腾讯开源具备原生3D重建能力的超长程世界模型：HunyuanWorld-Voyager

2025-09-02 14:51 · 来源： AIbase基地

近日，腾讯正式发布了HunyuanWorld-Voyager，这是一种创新的视频扩散框架，旨在通过单张输入图像生成具备世界一致性的3D 点云，支持用户按自定义的相机路径进行沉浸式探索。

官方表示，这全球首个具备原生3D 重建功能的超远距离世界模型，重新定义 AI 驱动的 VR、游戏和仿真空间智能。此模型不仅能够生成精确对齐的深度信息和 RGB 视频，还能够在不进行后处理的情况下，直接用于高质量的三维重建。

直接3D 输出:无需 COLMAP 等工具即可将点云视频导出为3D 格式，实现即时3D 应用。
创新的3D 内存:引入可扩展的世界缓存机制，确保任何摄像机轨迹的几何一致性。
顶级性能:在斯坦福 WorldScore 测试中排名第一，在视频生成和3D 重建基准测试中表现出色

HunyuanWorld-Voyager的架构包含两个关键组件。首先是 “世界一致的视频扩散”，该组件提出了一种统一的架构，可以基于已有的世界观测，同时生成准确对齐的 RGB 视频和深度视频序列，从而确保全局场景的一致性。其次是 “长距离世界探索”，它采用了一种高效的世界缓存机制，结合点云剔除和自回归推理能力，支持迭代场景扩展，并通过上下文感知的一致性技术实现平滑的视频采样。

为了训练 HunyuanWorld-Voyager 模型，研究团队构建了一套可扩展的数据构建引擎。这一自动化视频重建流水线能够对任意输入视频自动估计相机位姿和度量深度，因此无需依赖人工标注，从而实现大规模、多样化训练数据的构建。基于此流水线，HunyuanWorld-Voyager 整合了真实世界采集和虚幻引擎渲染的视频资源，构建了一个包含超过10万个视频片段的大规模数据集。

在实验评估中，HunyuanWorld-Voyager 在视频生成质量方面表现出色。与四种开源的相机可控视频生成方法进行了对比，结果显示该模型在 PSNR、SSIM 和 LPIPS 等指标上均优于其他模型，证明了其卓越的视频生成质量。同时，在场景重建方面，HunyuanWorld-Voyager 的生成视频在几何一致性上也显现出更好的效果。

此外，HunyuanWorld-Voyager 在 WorldScore 静态基准测试中获得了最高分，证明了其在相机运动控制和空间一致性方面的优越性。这一成果不仅展示了混元世界模型的潜力，还为未来的3D 场景生成技术开辟了新路径。

划重点:

🌍 HunyuanWorld-Voyager 能够基于单张输入图像生成具有世界一致性的3D 点云，支持用户沉浸式探索。
🎥 该模型同时生成精确对齐的深度信息和 RGB 视频，适用于高质量三维重建。
🏆 在多个测试中，HunyuanWorld-Voyager 在视频生成质量和场景重建效果上均优于其他模型。

相关推荐

业界首个！腾讯混元Voyager3D世界模型发布：支持原生3D重建

今日，腾讯混元官方宣布，HunyuanWorld-Voyager（简称混元Voyager）正式发布，这是业界首个支持原生3D重建的超长漫游世界模型。该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位，超越现有开源方法，在视频生成和3D重建任务中均表现出色。在视频生成和视频3D重建两个任务上，Voyager也均取得更好的结果。

腾讯混元 3D重建世界模型
荐AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

本文介绍了AI日报栏目，聚焦人工智能领域最新动态。主要内容包括：腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能，以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

AI 3D重建腾讯开源
荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
美团也开源了大模型，但我觉得他们的野心是通用生活Agent。

也有线上体验地址:https://longcat.ai 我自己去体验了一下，整体模型能力，中规中矩，但是快，是真的快，能把560B的模型，在推理的时候搞得这么快，是真的有点牛逼的。我直接录了个屏给大家看一下。这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度，他俩都是MoE架构，而且总参数量差不太多。为了更公平的竞争，用了同一个问题，并关闭了联网搜索来避免搜索干扰�

美团 AI模型开源
荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

本期AI日报聚焦多项技术突破：字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频；爱诗科技PixVerse V5全球上线支持多场景创作；腾讯开源Youtu-agent框架提升AI开发效率；百度智能云发布百舸AI计算平台5.0；OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现，展现人工智能领域快速发展的技术迭代与生态建设。

AI视频生成 OmniHuman-1.5 字节跳动
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
蔚来：已具备无人泊车技术会适时释放功能

在最新一期有问必答栏目中，蔚来回答了为什么没有做代客泊车、无人泊车？” 蔚来表示，蔚来是行业内最早一批全量推送包括离车泊入、遥控泊车、超感泊车等人车分离形态泊车的车企。最新的蔚来世界模型智能泊车辅助中，包括长距离漫游泊车、车位360识别、跨车位腾挪等能力，也都是远程遥控、召唤等泊车新形态的能力基础。

蔚来智能泊车辅助无人泊车
Kimi K2模型更新至0905版本：更强代码能力更快API性能

月之暗面科技有限公司宣布其Kimi K2模型更新至0905版本，带来更强的代码能力和更快的API性能。此次更新进一步提升了Kimi K2在真实编程任务中的表现，特别是在公开基准测试和实际编程任务中展现出更好的性能。 Kimi K2模型的Agentic Coding能力得到显著提升，这使得它在处理复杂的编程任务时更加高效。同时，前端编程体验也得到了升级，生成的代码不仅更加美观，而且更具实用

Kimi K2模型代码能力提升
荐腾讯加速造“世界”

“如果没有开源，没有去和社区交流，我们靠闭门造车是空想不出来的。”近日，在接受字母榜独家专访时，腾讯混元3D团队负责人郭春超这样说道。郭春超的感慨来自于在近期的开源社区中，国产模型“搅动”了整个大模型业界的开源生态， Hugging Face的模型热度榜单被中国企业连续“霸榜”。最多时，前10开源席位中有9个来自中国。在排名前几的选手中，除了 “Text Genera

开源大模型腾讯混元3D
小渔夫GEO助力高端家具出海：3人小团队，报价贵同行3倍仍爆单!

佛山某欧式家具品牌通过GEO全域营销与YouTube视频营销结合，成功打入欧美高端市场。该品牌以3人团队起步，放弃传统展会与B2B平台，专注本土化精准营销，实现产品溢价300%。通过YouTube内容持续输出与GEO区域关键词优化，品牌声量持续提升，成为高端出海代表案例。

YouTube营销 GEO全域推广高端家具品牌

今日大家都在搜的词：

热文

3 天
7天

腾讯开源具备原生3D重建能力的超长程世界模型：HunyuanWorld-Voyager

业界首个！腾讯混元Voyager3D世界模型发布：支持原生3D重建

荐AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列模型开放API；通义推智能体开发框架AgentScope 1.0

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

美团也开源了大模型，但我觉得他们的野心是通用生活Agent。

荐AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯开源智能体框架Youtu-agent

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

蔚来：已具备无人泊车技术会适时释放功能

Kimi K2模型更新至0905版本：更强代码能力更快API性能

荐腾讯加速造“世界”

小渔夫GEO助力高端家具出海：3人小团队，报价贵同行3倍仍爆单!

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

尊界S800选配星空顶涨价3万：价格上调至 8 万元

苹果折叠屏iPhone或将采用真全面屏形态：告别刘海与挖孔

华为FreeBuds 7i无线耳机开售：首发价499元

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

三大运营商回应是否支持eSIM版iPhone：需等待通知

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

站长商机