首页 > 业界 > 关键词  > 3D最新资讯  > 正文

HumanGaussian开源:基于Gaussian Splatting的高质量3D人体生成新框架

2023-12-11 09:09 · 稿源:站长之家

要点:

  • 结构感知的SDS引入人体结构先验,同时优化外观和几何形状。

  • 通过退火的负文本引导,确保真实结果,避免过度饱和和消除浮动伪影。

  • HumanGaussian框架能够生成多样、逼真的高质量3D人体模型,展现真实外观和细粒度的细节。

站长之家(ChinaZ.com)12月11日 消息:在3D生成领域,为了实现高质量的3D人体外观和几何形状,研究者们一直在探索自动化的生成方法。传统方法需要经历多个人工制作步骤,而最新的HumanGaussian框架通过结构感知的SDS和负文本引导等核心方法,成功解决了3D人体生成中效率与质量之间的权衡问题。

HumanGaussian引入了结构感知的SDS,利用SMPL-X网格形状初始化3D高斯中心位置。相较于以往的方法,这一框架通过缩放和变换实现合理的人体尺寸,并在3D空间中居中,为3D生成提供了更全面的初始信息。通过SDS源模型,结合RGB和深度图的结构专家分支,研究者成功构建了一个统一的模型,同时捕获外观的图像纹理和前景/背景关系的结构,促进了3D高斯的学习过程。

image.png

项目地址:https://github.com/alvinliu0/HumanGaussian

为了解决3D生成内容与文本之间的对齐问题,HumanGaussian采用了退火的负文本引导,通过结合两个分数进行监督。相较于传统方法中较大的无分类器引导尺度,这一方法能够更清晰地指导SDS损失,避免损害训练稳定性。实验证明,负文本分类器分数的退火可以在小时间步长内提高质量,同时保持稳定性,使生成更真实,消除了浮动伪影。

在性能对比实验中,HumanGaussian在3D人体生成领域取得了优越的成果,展现出更真实的外观、更连贯的结构、更好的视图一致性以及更细粒度的细节捕捉。这一创新框架的开源将有助于推动相关领域的研究和应用,为虚拟试穿、沉浸式远程呈现等应用提供更高质量的3D人体生成解决方案。

HumanGaussian作为一种有效而快速的3D人体生成框架,通过结构感知的SDS和负文本引导的创新方法,成功地平衡了效率和质量,为高质量、真实的3D人体模型的生成提供了新的思路和解决方案。这一框架的开源将为相关研究者提供有力工具,推动3D生成领域的发展。

举报

  • 相关推荐
  • 大家在看
  • HoloDreamer:从文本描述生成全息3D全景世界

    HoloDreamer是一个文本驱动的3D场景生成框架,能够生成沉浸式且视角一致的全封闭3D场景。它由两个基本模块组成:风格化等矩形全景生成和增强两阶段全景重建。该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化,然后利用3D高斯散射(3D-GS)技术快速重建3D场景,从而实现视角一致和完全封闭的3D场景生成。HoloDreamer的主要优点包括高视觉一致性、和谐性以及重建质量和渲染的鲁棒性。

  • MusiConGen:基于Transformer的文本到音乐生成模型

    MusiConGen是一个基于Transformer的文本到音乐生成模型,它通过时间条件增强对节奏和和弦的控制。该模型从预训练的MusicGen-melody框架中微调而来。它使用符号表示的和弦和节奏控制,并结合五种不同风格的文本描述来生成样本。生成样本的和弦通过BTC和弦识别模型进行估计,如论文中所述。

  • PixVerse V2:轻松创建视觉冲击的视频内容。

    PixVerse V2是一个革命性的更新,它赋予每个用户轻松创建令人惊叹的视频内容的能力。使用V2,您可以轻松制作视觉冲击力强的电影,甚至可以加入现实世界中不存在的元素。主要优点包括模型升级、画质提升、剪辑间的一致性等。

  • KLING AI:激发你的想象力,开启创意生产的新时代。

    KLING AI是快手可灵的国际版,是一个以AI技术为核心的创意生产平台,提供AI图像和视频生成服务。其背后的技术由KOLORS和KLING提供支持,旨在通过先进的算法快速生成高质量的视觉内容,帮助用户实现创意想法,提升生产效率。

  • Comfy Deploy:快速部署AI应用的协作平台

    Comfy Deploy是一个面向产品团队的开源平台,专注于将ComfyUI工作流程快速转化为生产就绪的API。它提供了一键部署API、强大的管理GPU支持、任何模型和自定义节点的安装,以及无需自托管即可享受的ComfyUI的强大功能。该平台通过简化复杂流程,帮助团队协作、迭代和部署AI应用,显著提高了生产效率。

  • NVIDIA AI Foundry: 提供定制化的 AI 模型和解决方案。

    NVIDIA AI Foundry 是一个平台,旨在帮助企业构建、优化和部署 AI 模型。它提供了一个集成的环境,使企业能够利用 NVIDIA 的先进技术来加速 AI 创新。NVIDIA AI Foundry 的主要优点包括其强大的计算能力、广泛的 AI 模型库以及对企业级应用的支持。通过这个平台,企业可以更快速地开发出适应其特定需求的 AI 解决方案,从而提高效率和竞争力。

  • HeyGen Interactive Avatar:在线创建AI虚拟形象视频,实时互动。

    HeyGen Interactive Avatar是一个在线AI视频生成器,专注于创建和优化虚拟形象视频,支持实时互动。它允许用户创建一个为连续流媒体优化的虚拟形象,同时提醒用户保持头部和手部的最小动作。HeyGen的背景信息包括与Baron David和Ryan Hoover等知名人士的合作,产品目前处于Beta测试阶段,提供免费试用。

  • Adobe Firefly Vector AI:创意生成AI工具

    Adobe Firefly Vector AI是Adobe推出的一系列创意生成AI模型,旨在通过生成AI功能增强创意工作。Firefly模型和服务于Photoshop、Illustrator、Lightroom等Adobe创意应用中。它通过文本到图像、生成填充、生成扩展等功能,帮助用户以前所未有的控制力和创造力生成丰富、逼真的图像和艺术作品。Firefly的训练数据包括Adobe Stock的授权内容、公开许可内容和公共领域内容,确保其商业使用安全。Adobe致力于负责任地开发生成AI,并通过与创意社区的紧密合作,不断改进技术,支持和提升创意过程。

  • Jelled.ai:使用AI数字孪生优化职场沟通

    Jelled.ai是一个利用人工智能技术来提升职场沟通效率的平台。它通过创建用户的数字孪生,帮助用户从Gmail和Slack等主要通信渠道中提取、总结关键信息,并生成及时、知情的邮件草稿。数字孪生能够学习用户的邮件回复模式,节省时间和精力。此外,它还提供了即时回复、智能代理聊天、消息审查等功能,帮助用户有效管理日常沟通。Jelled.ai致力于保护用户数据安全,通过年度安全审计和符合Google API服务用户数据政策的措施,确保数据安全。

  • Mock Interviews with AI:AI驱动的模拟面试,提升求职成功率。

    Mock Interviews with AI 是一款由Invue AI提供的职业面试准备平台,它通过AI技术模拟真实面试场景,提供即时反馈和个性化建议,帮助求职者提高面试技巧和自信心。产品背景基于36,000+求职者的使用经验,由专业团队设计,旨在帮助用户在面试中取得成功。产品提供基础和高级两个版本,基础版免费,高级版提供更多功能和服务。

  • Lokal.so:本地开发工具,支持远程访问和AI辅助

    Lokal.so 是一款本地开发工具,旨在简化本地开发环境的设置和使用。它通过提供多种功能,如本地隧道服务、AI 助手、S3 兼容服务器等,帮助开发者更高效地进行本地开发和调试。主要优点包括:1. 支持通过公共和 https .local 地址共享本地主机。2. 提供自托管的本地隧道服务器,确保隐私和自由。3. 利用 Cloudflare 的全球网络加速网站交付。4. 内置 AI 助手,可以与隧道流量交互,生成代码,回答与流量内容相关的问题。5. 提供无限的 .local 域名,支持局域网内的访问。6. 内置 S3 兼容服务器,方便文件存储和调试。7. 支持 JSON 到语言模式的自动转换,简化开发流程。

  • ScanIt:轻量级、快速、无广告的文档扫描应用

    ScanIt是一款专为iPhone和iPad设计的文档扫描应用,以其轻量级、快速、无广告的特点,为用户提供了一种简单高效的文档数字化解决方案。它拥有智能文档识别、曲面调整和文本提取(OCR)等专业功能,支持多种格式导出,并能安全加密文档,满足不同用户对扫描效率和安全性的需求。

  • PhotoMaker V2:一键生成个性化照片,快速便捷。

    PhotoMaker V2是由腾讯ARC实验室开发的AI照片生成应用,利用先进的图像识别和生成技术,用户可以快速生成个性化的照片。产品背景信息显示,PhotoMaker V2旨在为用户提供一个简单、高效的图片创作工具,无论是社交媒体分享还是个人收藏,都能满足用户需求。目前产品处于免费试用阶段,具体价格尚未公布。

  • Speax AI:AI视频多语言配音服务

    Speax AI提供快速、准确的AI视频配音服务,支持29种以上语言的即时翻译和配音。它通过先进的AI技术确保声音同步和文化准确性,同时提供具有竞争力的价格。

  • Cerebella:智能学习卡片应用,简化知识学习过程。

    Cerebella是一款iOS平台上的智能学习卡片应用,旨在通过简洁美观的设计,帮助学生和终身学习者高效备考和探索新知识。它提供了创建个性化学习卡片、智能学习算法、多选测试和自定义学习体验等功能,致力于让学习变得更简单、更有趣。

  • Volv:9秒新闻,为高效人士提供精炼资讯。

    Volv是一款为追求效率的个人设计的新闻APP,它由AI驱动,通过9秒的短文章形式,提供最有趣、最热门和最重要的内容。Volv旨在减少用户在社交媒体上无目的滚动的时间,帮助他们快速获取信息。

  • SuperCoder:自主软件开发系统,提高编码效率。

    SuperCoder是一个开源的自主软件开发系统,利用先进的AI工具和代理来简化和自动化编码、测试和部署任务,提高效率和可靠性。它支持多种编程语言和框架,以满足不同的开发需求。

  • Composio:AI代理工具集,赋能复杂任务处理。

    Composio是一个为AI代理提供高质量工具和集成的平台,它简化了代理的认证、准确性和可靠性问题,使得开发者能够通过一行代码集成多种工具和框架。它支持100多种工具,覆盖了GitHub、Notion、Linear等90多个平台,提供了包括软件操作、操作系统交互、浏览器功能、搜索、软件开发环境(SWE)以及即席代理数据(RAG)等多种功能。Composio还支持六种不同的认证协议,能够显著提高代理调用工具的准确性。此外,Composio可以作为后端服务嵌入到应用程序中,为所有用户和代理管理认证和集成,保持一致的体验。

  • NeuralGCM:高效准确的气候模拟模型

    NeuralGCM是由谷歌研究团队开发的气候模型,与传统基于物理的气候模型相比,它结合了机器学习技术,提高了模拟的准确性和效率。NeuralGCM能够生成2至15天的天气预测,其准确性超过了当前的黄金标准物理模型,并且在重现过去40年的温度数据方面比传统大气模型更为准确。尽管NeuralGCM尚未构建为完整的气候模型,但它标志着开发更强大、更易用气候模型的重要一步。

  • RouteLLM:节省LLM成本,不牺牲质量的框架

    RouteLLM是一个用于服务和评估大型语言模型(LLM)路由器的框架。它通过智能路由查询到不同成本和性能的模型,以节省成本同时保持响应质量。它提供了开箱即用的路由器,并在广泛使用的基准测试中显示出高达85%的成本降低和95%的GPT-4性能。

今日大家都在搜的词: