首页 > 业界 > 关键词  > 3D渲染最新资讯  > 正文

MVDream:轻松实现从文本到3D渲染图像

2023-09-04 10:11 · 稿源:站长之家

文章概要:

1. MVDream可以仅从文本描述生成高质量3D图像,实现从文本到3D渲染

2. 通过使用多视角图像训练,MVDream可以生成连贯一致的3D内容,避免了常见的“两面人”等问题。

3. MVDream的图像分辨率目前较低,仅256x256,需要使用更大模型来提升质量和泛化能力。

站长之家(ChinaZ.com)9月4日 消息:近日,字节跳动研究人员推出了名为MVDream的新技术,它可以仅通过文本描述生成高质量的3D图像。这种从文本到图像的生成技术,被称为“文本到3D”技术,是当前计算机视觉领域的热门研究方向。

image.png

MVDream的创新之处在于,它可以生成连贯一致的3D图像,而不是仅仅是从不同角度拼凑的2D图像。

这主要得益于MVDream使用的训练方式。具体来说,MVDream不仅使用了常见的文本-图像训练对,还使用了包含同一3D对象的多视角图像进行训练。例如,它会使用一只狗的多视角图像来训练模型,让模型学会从文本描述中生成该狗的3D形状,而不是仅生成狗的单视角图片。

在测试中,MVDream生成的3D图像质量显著优于其他类似技术,基本上避免了“两面人”问题(一个对象具有不协调的多面)以及内容漂移问题(内容随视角改变)等常见问题。这为未来从文本生成连贯、逼真的3D内容打下了坚实的基础。

image.png

然而,MVDream目前的图像分辨率仍较低,只有256x256像素。此外,其泛化能力有限,主要依赖特定数据集的训练。

image.png

不同模型的对比

不过,字节跳动预计,未来可以通过使用 SDXL 等更大的扩散模型来减少或解决这两个问题。然而,为了显着提高3D 渲染的质量和风格,该团队表示可能需要使用新数据集进行广泛的培训。

MVDream模型的核心特色功能如下:

- 利用预训练的图像扩散模型进行多视图生成,实现2D扩散的泛化性和3D数据的一致性。

- 通过分数蒸馏采样作为3D生成的多视图先验,极大提高了现有2D方法的稳定性。

- ,通过解决3D一致性问题提升下游任务的性能。

- 可以进行个性化的多视图生成,使用少量数据进行精调。

- 生成的多视图图像在不同视角具有几何一致性。

- 可以根据文本提示语生成对象和场景的多视图图像。

总结而言,该模型的创新点在于融合了2D图像生成与3D数据一致性,通过多视图先验指导3D生成,既保留了2D生成的泛化性又提升了3D任务的性能。

项目网址:https://mv-dream.github.io/

举报

  • 相关推荐
  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • 三星超薄旗舰Galaxy S25 Edge渲染图揭露:黑、蓝、银三款配色

    快科技5月2日消息,据海外科技媒体披露,三星Galaxy S25 Edge手机的高清渲染图正式亮相,其具备 Titanium Jetblack(钛晶黑)、Titanium Icyblue(钛晶冰蓝)以及 Titanium Silver(钛晶银)三种配色。价格定位上,三星Galaxy S25 Edge定位中高端,256GB版本定价预计150万韩元(约合7413元人民币),处于S25 Plus和S25 Ultra之间。配置方面,新机主打5.8mm超薄机身,搭载6.66英寸屏幕。在发布与销售计划方面,这款手机将在中国和韩国市场率先开售,5月14-20日开启预订,21- 23日为预订用户激活期,23日正式发售,5月30日登陆美国等全球市?

  • 聚首华南,2025下半年增材制造、3D 打印的顶尖展览与活动推荐

    2025年全球3D打印行业将迎来系列盛会。4月西安论坛成功举办后,下半年将迎来深圳Formnext Asia(8月26-28日)、东京论坛(9月25-26日)和法兰克福Formnext展会(11月18-21日)三大国际活动。这些平台将汇聚全球顶尖企业,展示航空航天、医疗健康、汽车工业等领域的最新技术成果,特别关注中国企业的快速成长。法兰克福展会预计吸引超900家展商,中国展商数量有望再创新高。系列活动将搭建全球产业交流平台,推动3D打印技术创新与商业应用深度融合。

  • 10倍精度升级!腾讯混元3D模型v2.5版本发布

    腾讯混元3D模型升级至v2.5版本,建模精度和贴图真实度显著提升。新版本参数体量从1B增至10B,有效面片数增加超10倍,支持1024几何分辨率。纹理系统支持4K高清贴图和凹凸细节,率先支持多视图生成PBR模型。针对动画场景优化骨骼蒙皮系统,支持非标准姿态自动绑定。新增文生/图生3D减面模型、多视图建模模板等专业工作流。混元3D v2.5已全面更新至腾讯AI创作引擎,免费生成额度提升至每日20次,并正式上线腾讯云API面向企业开放。GitHub开源版本累计Star超1.2万。

  • ​上海毅速推出第三代模具3D打印专机E3系列,引领模具制造技术革新

    导读:近年来,金属3D打印技术在模具制造领域得到了广泛的应用,模具行业正在迎来一场前所未有的技术变革,随着应用的逐渐深入,模具专用的金属3D打印机应运而生。2025 年 4 月 15 日,上海毅速激光科技有限公司(以下简称“毅速”)正式发布了其第三代模具3D打印专机系列——E3- 420 和E3-520。这一新品的推出,标志着模具制造行业向增材制造迈出了重要一步。毅速E3- 420 �

  • 首次实现图像思考 OpenAI重磅发布o3/o4-mini:史上最强、最智能模型

    快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅发布,这是OpenAI迄今最强、最智能的模型。据了解,OpenAI o3/o4-mini首次具备真正的视觉推理能力,看图识图已经是小菜一碟了,现在还会看图思考。OpenAI o3/o4-mini能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式。通过强化学习,OpenAI训练了o3/o4-mini如何�

  • 曝iPhone 18 Pro内测屏下3D人脸识别:苹果迈入单挖孔屏时代

    这意味着iPhone 18 Pro系列正式迈入单挖孔屏时代,向安卓主流屏幕形态看齐。需要注意的是,安卓阵营普遍采用单挖孔 屏幕指纹识别方案,而iPhone则是采用屏下3D人脸识别方案,不支持屏幕指纹。

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 华为鸿蒙PC搭载方舟图像引擎:像素级遮挡剔除 多窗无压力

    快科技5月8日消息,华为首款鸿蒙PC今日正式发布,其搭载方舟图形引擎,带来炫酷的视效体验。据介绍,方舟图形引擎基于方天视窗,高并行低负载统一渲染引擎,基于人因,交互优先,多窗重载依然流畅。传统方案中,窗口无序绘制,负载随窗口数量线性增加重载卡顿。而方舟图形引擎基于人因的窗口排序绘制,焦点窗口保证高帧率高负载稳定流畅。此外,方舟图形引擎支�