首页 > 业界 > 关键词  > DreamDistribution最新资讯  > 正文

文生图模型升级!DreamDistribution:基于少量参照图片无限生成多样个性化图片

2024-01-16 15:05 · 稿源:站长之家

**划重点:**

- 🚀 **全新方法:** 南加州大学、哈佛大学等团队推出DreamDistribution,一种基于提示学习的生成模型,可通过极少数量的参照图片生成高度多样且个性化的图像。

- 🖼️ **多领域应用:** 该方法不仅适用于文本生成图像,还可扩展到3D生成,实现更广泛的个性化生成任务。

- 📊 **评估结果:** DreamDistribution在自动和人工评估中均取得卓越成绩,相较于传统方法,生成图像更具多样性和质量。

站长之家(ChinaZ.com) 1月16日 消息:来自南加州大学、哈佛大学等机构的研究团队最近提出了一项创新性的生成模型方法,名为DreamDistribution。这一方法基于提示学习,能够通过仅有的几张参照图片学习文本提示分布,从而实现高度多样化和个性化的图像生成。

image.png

DreamDistribution找到参考图像的提示分布,然后可用于生成新的2D/3D 实例,能够进行文本引导编辑等。

DreamDistribution的独特之处在于它不仅适用于文本生成图像,还能在3D生成领域发挥作用。通过学习文本提示分布,该方法可以生成具有极大多样性的图像,保留参照图片的视觉属性,同时注入新颖的变化。

image.png

方法通过在语义空间内使用提示的语义特征拟合一个提示的高斯分布,以此来实现对生成图像的控制。正交损失项确保不同提示在语义空间中的特征差异,使生成更多样性。此外,方法还支持通过文本引导进行提示编辑,进一步增强了生成图像的个性化。

image.png

给定一组训练图像(通常为5-20张,在这里只显示4张),将生成结果与其他现有方法进行比较。我们对所有方法都使用 Stable Diffusion2.1版。从底行可以看出,这种的方法能够生成更多样化和连贯的图像。

在评估方面,DreamDistribution在自动评估和人工评估中均表现出色。使用流行的指标进行评估,如FID、CLIP-I和DINO等,结果显示该方法生成的图像在质量上明显优于基线方法。人工评估也证实了DreamDistribution生成图像的多样性和个性化程度相较于其他方法更高。

该方法不仅在生成图像的质量和多样性方面取得成功,而且展示了在更广泛生成任务中的应用潜力。研究人员使用MVDream作为3D生成模型,成功地将DreamDistribution的方法应用于3D生成任务,进一步证实了其适用性和灵活性。

然而,研究人员也指出一些不足之处,例如生成效果高度依赖于训练图片的质量和多样性,并且在3D生成上仍有提升的空间。这一工作为生成模型领域注入了新的思路,强调了在更高层面上实现个性化生成的重要性,为未来的研究提供了有益的启示。

DreamDistribution 主要特色功能总结如下:

  • Prompt 分发学习:DreamDistribution 通过学习软提示的分发,使预训练的文本到图像扩散模型能够生成新的2D/3D实例。这些软提示可以从学到的分发中进行采样,从而实现文本引导的编辑和更多功能。

  • 个性化定制:该项目专注于在更抽象的概念或类别水平上个性化文本到图像扩散模型,从一组参考图像中调整共性,并创建具有足够变化的新实例。这使得生成的图像具有多样性,同时保持与参考图像的关联性。

  • 多任务适应性:学到的提示分发不仅可以用于文本到2D图像的生成,还展示了在其他任务上的适应性,如文本到3D的生成。

  • 文本引导编辑:该方法支持文本引导的编辑功能,用户可以通过调整提示来控制生成图像的变化和混合。这增加了用户对生成过程的灵活性。

  • 应用于文本到3D生成:** 通过学习提示分发,可以应用于文本到3D生成,并支持文本引导的编辑,提供更多维度的图像生成能力。

论文地址:https://arxiv.org/abs/2312.14216

项目网址:https://briannlongzhao.github.io/DreamDistribution/

举报

  • 相关推荐
  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 用ChatGPT生成吉卜力风格图片,侵权吗?争论开始……

    X、Instagram等各种SNS平台上,吉卜力、迪斯尼等风格的AI图片泛滥成灾,上传这样的照片似乎成为了一种“潮流”。只需把照片输入ChatGPT、并向其发出命令,便可简单迅速地生成吉卜力风格的照片——宫崎骏一派的温暖、抒情的艺术风格再次引发了令人惊讶的反响。不过是些没有自己的思考,盲目被潮流裹挟的愚蠢大众罢了;……你怎么看呢?

  • ChatGPT上线库功能:可管理AI生成图片

    快科技4月16日消息,据报道,OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能,该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放,包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口,就能进入一个直观的图像网格界面。在这个界面中,用户可以轻�

  • 1至5元不等!有人开始售卖ChatGPT生成的“吉卜力风格”图片

    SNS上出现了售卖吉卜力风格图片的“交易”,一些二手交易平台上声称收到钱后就会帮忙制作吉卜力风格图片的帖子也层出不穷。吉卜力风格的图片转化功能在全球备受欢迎,近一周时间,通过ChatGPT制作的相关图片数量就超过了7亿张。想想他们为了打造某种独特风格所付出的努力,如今却遭遇这种无法受到著作权法保护的情况,无疑会极大地打击创作者们的积极性。

  • ChatGPT受限?这 8 款免费AI工具,也可以生成“吉卜力风格”图片

    自从OpenAI将其先进的图像生成器集成到GPT-4o中后,SNS、网络社区等平台上掀起了一股“吉卜力风格头像”风潮。但随着版权争议的加剧,OpenAI给这项“吉卜力风格化”的图像转化功能加了一点点的限制。这款在线工具可以让用户进行编辑、增强、放大图像、将图像转换为视频等多样的操作,只需注册便可使用。

  • 比GPT-4o更强?三位Adobe老将出走,做出了超强文生图模型丨AI新榜评测

    GPT-4o,被击败了?最近大伙都被GPT-4o生成的各种“整活”图像刷屏了吧,各种动漫油画风格改图、经典影视复现、漫画设计改图……新的玩法每天都在涌现,大有“AI一日,人间一年”之势。甚至OpenAICEOSamAltman都累了:“收手吧,我们需要休息!”但就在GPT-4o火遍全球之际,一个来自初创团队的新模型ReveImage,却凭借其在特定图像生成领域的出色表现,悄然赢得了用户和专业榜单的

  • Adobe 发布 Firefly 系列产品,涵盖图片、视频、矢量等

    Firefly 通过在单一空间内提供图像、视频、音频和矢量生成功能,将为基于人工智能的创意制作体验带来革新……

  • 挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

    HiDream是一款由国内团队开发的AI模型,擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解,尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片,并兼容多种应用领域,包括商业用途。尽管在某些特定要求下还需提升表现,但其潜力和实际效果已受到关注。

  • 微信加好友能加图片备注了 目前还在灰度测试中

    微信近日测试"图片备注"新功能,用户添加好友后若对方发送图片,可直接点击图片上方按钮将图片保存至该好友的备注信息中。该功能简化了为好友添加个性化备注的流程,特别适合快速记录初次见面的印象或特定场景照片标识。目前该功能已进入大规模测试阶段,不少用户反馈已在微信界面看到这一新增选项。这体现了微信持续优化用户体验、探索社交互动新方式的努力。

  • 微信首个AI助手元宝上线:支持分析公众号文章、文件、图片

    快科技4月17日消息,日前,微信首个AI助手元宝上线,用户可在微信搜索元宝”,添加好友后可进行对话。与元宝AI助手对话无需下载或跳转其他App、小程序,而是以好友的形式出现在通讯录,聊天时甚至还会显示对方正在输入...”,就像与真实好友对话一样。据介绍,元宝AI是腾讯元宝App入驻微信的AI助手,搭载混元和DeepSeek双模引擎,无缝衔接微信生态。元宝AI可一键解析公�