在计算机视觉和图形学中,3D 形状的抽象是一个基础且关键的研究领域。通过将复杂的3D 形状分解为简单的几何单位,研究者能够更好地理解人类视觉感知的机制。
然而,现有的3D 生成方法通常无法满足机器人操作或场景理解等任务对语义深度和可解释性的要求。传统的形状抽象方法往往面临过度细分或缺乏泛化能力的问题。
PrimitiveAnything:革命性框架
腾讯 AIPD 与清华大学的研究团队联合推出了 PrimitiveAnything 框架,旨在将形状抽象重新定义为原始组件生成任务。该框架采用解码器式的变换器,能够根据形状特征生成可变长度的原始组件序列,极大地提升了几何准确性和学习效率。
PrimitiveAnything 的核心在于其统一的、无歧义的参数化方案,能够支持多种原始形状类型。这一创新设计使得框架能够有效捕捉复杂形状是如何被分解为更简单的组件,从而更符合人类的直观理解。
自动回归生成:高效重构
PrimitiveAnything 通过自动回归的方式生成3D 形状。每个原始组件的类型、位置、旋转和缩放等属性被编码并输入到变换器中,以预测下一个组件。该框架使用级联解码器来建模属性间的依赖关系,确保生成过程的一致性。
在训练过程中,PrimitiveAnything 结合了交叉熵损失、Chamfer 距离(用于重构准确性)和 Gumbel-Softmax(用于可微采样),直到生成一个结束标记为止。这一流程能够灵活且类人地分解复杂的3D 形状。
人类原始组件数据集:全面评估
为验证框架的有效性,研究团队构建了一个大规模的 HumanPrim 数据集,其中包含12万样本及手动注释的原始组件。通过多项指标如 Chamfer 距离、地球移动者距离、Hausdorff 距离等进行评估,PrimitiveAnything 在重构准确性和与人类抽象模式的一致性上均表现优异。
此外,该框架支持从文本或图像输入生成3D 内容,用户能够轻松编辑生成结果,具备高建模质量,并实现超过95% 的存储节省,特别适合于高效的互动3D 应用。
结论:高效便捷的3D 生成
PrimitiveAnything 框架通过将3D 形状抽象视为序列生成任务,充分利用人类设计的原始组件,成功捕捉到直观的分解模式。该框架在各种物体类别中都能实现高质量的生成,显示出强大的泛化能力。
凭借其高效和轻量化的特性,PrimitiveAnything 非常适合用于游戏等需要性能和操作简便性的用户生成内容应用。
demo:https://huggingface.co/spaces/hyz317/PrimitiveAnything