11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
在CVPR2024上,美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC的新技术。这项技术通过结合语言模型和图像扩散模型,实现了高质量、多模态、零样本泛化的360度场景生成。技术应用:L-MAGIC还能够利用深度估计模型生成场景的沉浸式视频和三维点云,为场景理解和可视化提供了更多可能性。
在最新的研究中,研究人员提出了一种名为FreeControl的方法,可以实现对文本到图像生成模型的空间控制无需进行训练。这项研究支持同时控制多个条件、架构和检查点,为生成过程提供了更大的灵活性。FreeControl有助于对许多不同的架构和检查点进行方便的免训练控制,允许大多数现有免训练方法失败的具有挑战性的输入条件,并通过基于训练的方法实现有竞争力的合成质量。
卡内基梅隆大学和GoogleDeepMind的研究人员引入了一种突破性的方法,称为"AlignProp"。该方法利用直接反向传播来微调文本到图像扩散模型,解决了将这些模型与所需的奖励功能对齐的挑战。未来的研究方向未来,研究人员可以探索将AlignProp的原则扩展到基于扩散的语言模型,以增强其与人类反馈的一致性。