新AI框架HyperHuman：用于生成具有潜在结构扩散的超真实人类

2023-11-26 10:56 · 稿源：站长之家

划重点🔍
- 以用户定义的条件为基础，如文本和姿势，实现超逼真人体图像生成。
- 引入结构扩散模型（DMs），成为生成AI中的主导架构。
- 跳出困扰先前模型的问题，HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner实现高度逼真、多样化的人体图像生成。
- 建立了大规模人体中心数据集HumanVerse，包含340百万野外人体图像。

站长之家（ChinaZ.com）11月26日消息:近日，一项名为HyperHuman的新型人工智能框架正式亮相，为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术，成功克服了以往模型在生成人体图像中面临的种种挑战。

用户无需专业技能，只需提供文本和姿势等条件，HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器（VAEs）以一种重建方式，要么通过生成对抗网络(GANs)提高逼真度。然而，这些方法在训练不稳定和模型容量有限的情况下，往往仅适用于小规模数据集，导致生成的图像缺乏多样性。

HyperHuman框架引入了结构扩散模型（DMs），成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战，HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合，成功解决了人体形态的非刚性变形问题。这两个模块相互协作，使得图像的外观、空间关系和几何在一个统一的网络中协同建模。

HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质，从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点，研究人员建立了一个名为HumanVerse的大规模人体中心数据集，其中包含340百万张野外人体图像，并进行了详细的注释。基于这个数据集，HyperHuman设计了两个关键模块，分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干，同时去噪RGB、深度和法线等方面，确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

此外，HyperHuman还采用了强大的调制方案，以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划，低频信息泄漏得以消除，确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习，促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。

与当前技术的比较结果显示，HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中，展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB（512×512）。

HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法，突破了以往模型的局限性，为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。

项目网址:https://snap-research.github.io/HyperHuman/

论文网址:https://arxiv.org/abs/2310.08579

（举报）

相关推荐

关键词：

荐在由人类创造的“AI驱动”的世界里，人类该何去何从？

一位人工智能初创公司的创始人甚至表示，在一个由 AI 完成所有工作的世界里，渐渐地，人类就只能依靠政府发放的福利生活了……

AI机器人人工智能发展亚马逊AI
荐GPT4o生成的烂自拍，反而比我们更真实。

文章探讨了GPT-4o通过简单Prompt生成的"不完美"照片引发热潮的现象。这些刻意追求平凡、模糊、构图混乱的照片，反而因其"不完美"带来了前所未有的真实感。作者指出，在社交媒体充斥精修照片的时代，这种未经修饰的"生活切片"恰恰捕捉了人类最熟悉的真实瞬间。通过分析911事件经典照片《坠落的人》，文章进一步论证了真实往往存在于未经表演的偶�

数字艺术社交媒体热潮图片生成技术
荐或超过人类平均水平！AI 大模型将如何改造智能客服？

本文探讨了AI大模型如何推动智能客服升级。每日互动产品总监高志成指出，传统智能客服存在"答非所问"问题，主要受限于算法覆盖不足、相似性匹配机制和逐句识别方式。而大语言模型能基于上下文深度理解，精准把握客户意图，实现"所答即所问"的基本要求。未来智能客服将朝五个方向升级：1）精准理解应答；2）更自然的沟通方式；3）主动挖掘需求和销售转化；4）自动构建决策模型；5）实现营销服务一体化应用。高志成认为，随着AI技术发展，智能客服水平将超越人工客服平均水平，不仅能处理售前咨询，还能部分解决售后问题。企业需构建完善的知识库体系，将商品信息、活动信息等单独做成知识库，通过数据标注构建更立体的用户画像。最终，智能客服将向"售前+售后"全能型发展，承担更大责任。

智能客服 AI大模型客服升级
李想AI Talk第二季来了：理想VLA司机大模型是从动物到人类的进化

在这期间，李想分享了他对人工智能的最新思考，以及包含智能驾驶和理想同学在内的人工智能技术的最新进展，并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机，App已于12月27日全量上线。
仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

只需三张输入图像，Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建，这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

苹果AI模型 Matrix3D 苹果机器学习
荐AI 潜入Reddit，骗过99%人类！苏黎世大学操纵实测“AI洗脑术”，网友怒炸：我们是实验鼠？

苏黎世大学研究团队在Reddit的"ChangeMyView"论坛进行未经授权的AI操控实验，引发争议。研究人员伪装成普通用户发布1783条评论，成功改变137名用户观点，说服率达18%。实验采用三类AI角色：通用AI、模仿社区风格的AI和个性化AI（根据用户历史定制说服策略）。最受争议的是AI会虚构身份（如性侵幸存者、残疾人士等）博取信任。尽管校方辩称实验旨在警示AI操控风险且内�

AI实验社交媒体影响观点操控
AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

【AI日报】栏目聚焦人工智能领域最新动态：1) OpenAI推出ChatGPT图像生成API，开发者可轻松集成AI绘图功能，已生成超7亿张图片；2) 谷歌Gemini月活用户突破3.5亿，但仍落后于ChatGPT的6亿用户；3) OpenAI预测2029年收入将达1250亿美元，AI代理业务成主要增长点；4) Ostris发布8B参数扩散模型Flex.2-preview，优化ComfyUI工作流；5) 英伟达推出多模态LLM模型Describe Anything，支持指定区域生成详细描�

OpenAI ChatGPT 图像生成
国内设计类素材网站有哪些？免费AI简历生成网站推荐

站长沙素材（sc.chinaz.com）是站长之家旗下专业设计素材平台，提供海量免费资源下载。主要功能包括：1. 丰富设计素材（图片、网页模板、PPT模板、音视频素材、商用字体）；2. 实用在线工具（图片/视频/音频处理、字体生成）；3. 专业设计开发教程（PS/AI/Sketch、编程语言等）；4. 严格版权审核确保素材合法使用。平台特色：界面简洁、搜索高效、资源定期更新，注册用户可享收藏和历史记录功能。适合设计师、开发者等创意工作者获取资源提升工作效率。

设计素材免费下载创意资源
荐接替Manus，字节的Agent王牌能打多久？

字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品，自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力，支持游戏攻略撰写、市场调研等复杂需求，并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距，但凭借产品设计优化和量大价优的优势，成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题，半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期，但企业落地仍面临系统接入、数据安全等挑战。

字节 Agent AI
荐全球首个AI科学家天团出道！007做实验碾压人类博士，生化环材圈巨震

非营利组织FutureHouse发布全球首个公开可用的AI科学家系统，包含四个专业AI智能体：通用智能体Crow、文献综述智能体Falcon、调研智能体Owl和实验智能体Phoenix。这些AI在科学文献搜索准确率上已超越GPT-4.5等主流模型，能访问完整科学文献并评估信息来源质量。平台提供透明推理过程和API接口，支持科研流程自动化。测试显示AI在PCOS疾病研究中，仅用几分钟就完成传统需数周的文献调研，并能生成可验证假设。创始人表示这些AI将大幅提升科研效率，未来两年内有望替代科学家大部分案头工作。

AI科学家超人类智能体科学研究

热文

3 天
7天

新AI框架HyperHuman：用于生成具有潜在结构扩散的超真实人类

荐在由人类创造的“AI驱动”的世界里，人类该何去何从？

荐GPT4o生成的烂自拍，反而比我们更真实。

荐或超过人类平均水平！AI 大模型将如何改造智能客服？

李想AI Talk第二季来了：理想VLA司机大模型是从动物到人类的进化

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

荐AI 潜入Reddit，骗过99%人类！苏黎世大学操纵实测“AI洗脑术”，网友怒炸：我们是实验鼠？

AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

国内设计类素材网站有哪些？免费AI简历生成网站推荐

荐接替Manus，字节的Agent王牌能打多久？

荐全球首个AI科学家天团出道！007做实验碾压人类博士，生化环材圈巨震

热文

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

奥特曼：使用 ChatGPT 的方式，暴露了你的年龄！

四年来，软银集团首次实现年度盈利，重振投资者信心

2026年苹果产品迎来革命性升级：折叠屏iPhone/全新MacBook Pro

不丹率先为游客提供国家级加密支付

微软宣布全球裁员超 6000 人，占比约 3%

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

在由人类创造的“AI驱动”的世界里，人类该何去何从？

三星、LG本月开始为iPhone 17批量生产OLED面板

仅用三张图像即可生成 3D 场景，苹果新 AI 模型“很惊人”

奥特曼：使用 ChatGPT 的方式，暴露了你的年龄！

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

C++创始人：需要改变的不是语言，而是开发者的思维方式！

四年来，软银集团首次实现年度盈利，重振投资者信心

2026年苹果产品迎来革命性升级：折叠屏iPhone/全新MacBook Pro

不丹率先为游客提供国家级加密支付

站长商机