首页 > 业界 > 关键词  > ViewDiff最新资讯  > 正文

Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像

2024-04-15 09:06 · 稿源:站长之家

划重点:

⭐ 创新模型 ViewDiff 助力快速生成高质量多视角3D 图像

⭐ ViewDiff 解决了文本生成一致性、多视角3D 图像的三大难点

⭐ 自回归生成模块使 ViewDiff 在任意视角上生成更多的3D 一致性图像

站长之家(ChinaZ.com)4月15日 消息:Meta 与德国慕尼黑工业大学研发出创新模型 ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D 图像。

该模型解决了传统文本生成多视角3D 图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。通过引入一种创新架构,ViewDiff 采用文生成图模型作为先验知识和图像流生成器,再通过显式的3D 建模为图像赋予一致性和多视角能力。

image.png

为了有效捕获3D 几何和全局风格,研究人员对原有 U-Net 架构进行了创新,增强了跨帧注意力层和投影层。跨帧注意力层替换了标准自注意力层,实现跨图像风格匹配;而投影层将多视图2D 特征集成为显式的3D 体素特征,保证了输出图像的3D 几何一致性。在此基础上,ViewDiff 还开发了自回归生成模块,使其能在任意视角上生成更多的3D 一致性图像,进一步提升了模型的生成能力。

该研究的推出填补了文本生成多视角3D 图像领域的技术空白,有望为游戏开发、元宇宙等行业提供更便捷、高效的模型构建方案。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D 图像生成领域带来更多创新可能。

论文地址:https://arxiv.org/abs/2403.01807

项目地址:https://top.aibase.com/tool/viewdiff

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: