首页 > 业界 > 关键词  > HyperHuman最新资讯  > 正文

新AI框架HyperHuman:用于生成具有潜在结构扩散的超真实人类

2023-11-26 10:56 · 稿源:站长之家

划重点🔍

- 以用户定义的条件为基础,如文本和姿势,实现超逼真人体图像生成。

- 引入结构扩散模型(DMs),成为生成AI中的主导架构。

- 跳出困扰先前模型的问题,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner实现高度逼真、多样化的人体图像生成。

- 建立了大规模人体中心数据集HumanVerse,包含340百万野外人体图像。

站长之家(ChinaZ.com)11月26日 消息:近日,一项名为HyperHuman的新型人工智能框架正式亮相,为生成超逼真人体图像开创了崭新纪元。这一框架的重要突破在于结合了结构扩散技术,成功克服了以往模型在生成人体图像中面临的种种挑战。

用户无需专业技能,只需提供文本和姿势等条件,HyperHuman就能从中生成高度逼真的人体图像。这对于图像动画、虚拟试穿等多种应用具有深远意义。以往的方法要么依赖于变分自动编码器(VAEs)以一种重建方式,要么通过生成对抗网络(GANs)提高逼真度。然而,这些方法在训练不稳定和模型容量有限的情况下,往往仅适用于小规模数据集,导致生成的图像缺乏多样性。

image.png

HyperHuman框架引入了结构扩散模型(DMs),成为生成AI中的主导架构。尽管先前的文本到图像模型(T2I)在使用结构扩散时仍然面临挑战,HyperHuman通过Latent Structural Diffusion Model和Structure-Guided Refiner的组合,成功解决了人体形态的非刚性变形问题。这两个模块相互协作,使得图像的外观、空间关系和几何在一个统一的网络中协同建模。

HyperHuman的关键在于认识到人体图像在多个层次上都具有结构性质,从粗粒度的身体骨架到细粒度的空间几何。为了实现这一点,研究人员建立了一个名为HumanVerse的大规模人体中心数据集,其中包含340百万张野外人体图像,并进行了详细的注释。基于这个数据集,HyperHuman设计了两个关键模块,分别是Latent Structural Diffusion Model和Structure-Guided Refiner。前者通过增强预训练扩散骨干,同时去噪RGB、深度和法线等方面,确保了纹理和结构的空间对齐。后者则通过空间对齐的结构图为详细、高分辨率的图像生成提供了预测条件。

image.png

此外,HyperHuman还采用了强大的调制方案,以减轻两阶段生成流程中错误累积的影响。通过精心设计的噪声计划,低频信息泄漏得以消除,确保了本地区域深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习,促进了特征融合。这一整套设计保证了模型对于结构性和纹理丰富性的统一处理。

与当前技术的比较结果显示,HyperHuman在生成的图像中展现了卓越的质量。在每行的第一个4×4网格中,展示了由HyperHuman计算的输入骨架、联合去噪法线、深度和粗糙RGB(512×512)。

HyperHuman的出现为生成超逼真人体图像提供了一种全新的方法,突破了以往模型的局限性,为未来的虚拟试穿、图像动画等应用带来了更为广阔的可能性。

项目网址:https://snap-research.github.io/HyperHuman/

论文网址:https://arxiv.org/abs/2310.08579

举报

  • 相关推荐
  • 在由人类创造的“AI驱动”的世界里,人类该何去何从?

    一位人工智能初创公司的创始人甚至表示,在一个由 AI 完成所有工作的世界里,渐渐地,人类就只能依靠政府发放的福利生活了……

  • GPT4o生成的烂自拍,反而比我们更真实

    文章探讨了GPT-4o通过简单Prompt生成的"不完美"照片引发热潮的现象。这些刻意追求平凡、模糊、构图混乱的照片,反而因其"不完美"带来了前所未有的真实感。作者指出,在社交媒体充斥精修照片的时代,这种未经修饰的"生活切片"恰恰捕捉了人类最熟悉的真实瞬间。通过分析911事件经典照片《坠落的人》,文章进一步论证了真实往往存在于未经表演的偶�

  • 或超过人类平均水平!AI 大模型将如何改造智能客服?

    本文探讨了AI大模型如何推动智能客服升级。每日互动产品总监高志成指出,传统智能客服存在"答非所问"问题,主要受限于算法覆盖不足、相似性匹配机制和逐句识别方式。而大语言模型能基于上下文深度理解,精准把握客户意图,实现"所答即所问"的基本要求。未来智能客服将朝五个方向升级:1)精准理解应答;2)更自然的沟通方式;3)主动挖掘需求和销售转化;4)自动构建决策模型;5)实现营销服务一体化应用。高志成认为,随着AI技术发展,智能客服水平将超越人工客服平均水平,不仅能处理售前咨询,还能部分解决售后问题。企业需构建完善的知识库体系,将商品信息、活动信息等单独做成知识库,通过数据标注构建更立体的用户画像。最终,智能客服将向"售前+售后"全能型发展,承担更大责任。

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人类的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • 仅用三张图像即可生成 3D 场景,苹果 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • AI 潜入Reddit,骗过99%人类!苏黎世大学操纵实测“AI洗脑术”,网友怒炸:我们是实验鼠?

    苏黎世大学研究团队在Reddit的"ChangeMyView"论坛进行未经授权的AI操控实验,引发争议。研究人员伪装成普通用户发布1783条评论,成功改变137名用户观点,说服率达18%。实验采用三类AI角色:通用AI、模仿社区风格的AI和个性化AI(根据用户历史定制说服策略)。最受争议的是AI会虚构身份(如性侵幸存者、残疾人士等)博取信任。尽管校方辩称实验旨在警示AI操控风险且内�

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 国内设计素材网站有哪些?免费AI简历生成网站推荐

    站长沙素材(sc.chinaz.com)是站长之家旗下专业设计素材平台,提供海量免费资源下载。主要功能包括:1. 丰富设计素材(图片、网页模板、PPT模板、音视频素材、商用字体);2. 实用在线工具(图片/视频/音频处理、字体生成);3. 专业设计开发教程(PS/AI/Sketch、编程语言等);4. 严格版权审核确保素材合法使用。平台特色:界面简洁、搜索高效、资源定期更新,注册用户可享收藏和历史记录功能。适合设计师、开发者等创意工作者获取资源提升工作效率。

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震

    非营利组织FutureHouse发布全球首个公开可用的AI科学家系统,包含四个专业AI智能体:通用智能体Crow、文献综述智能体Falcon、调研智能体Owl和实验智能体Phoenix。这些AI在科学文献搜索准确率上已超越GPT-4.5等主流模型,能访问完整科学文献并评估信息来源质量。平台提供透明推理过程和API接口,支持科研流程自动化。测试显示AI在PCOS疾病研究中,仅用几分钟就完成传统需数周的文献调研,并能生成可验证假设。创始人表示这些AI将大幅提升科研效率,未来两年内有望替代科学家大部分案头工作。