首页 > 业界 > 关键词  > DreamDistribution最新资讯  > 正文

文生图模型升级!DreamDistribution:基于少量参照图片无限生成多样个性化图片

2024-01-16 15:05 · 稿源:站长之家

**划重点:**

- 🚀 **全新方法:** 南加州大学、哈佛大学等团队推出DreamDistribution,一种基于提示学习的生成模型,可通过极少数量的参照图片生成高度多样且个性化的图像。

- 🖼️ **多领域应用:** 该方法不仅适用于文本生成图像,还可扩展到3D生成,实现更广泛的个性化生成任务。

- 📊 **评估结果:** DreamDistribution在自动和人工评估中均取得卓越成绩,相较于传统方法,生成图像更具多样性和质量。

站长之家(ChinaZ.com) 1月16日 消息:来自南加州大学、哈佛大学等机构的研究团队最近提出了一项创新性的生成模型方法,名为DreamDistribution。这一方法基于提示学习,能够通过仅有的几张参照图片学习文本提示分布,从而实现高度多样化和个性化的图像生成。

image.png

DreamDistribution找到参考图像的提示分布,然后可用于生成新的2D/3D 实例,能够进行文本引导编辑等。

DreamDistribution的独特之处在于它不仅适用于文本生成图像,还能在3D生成领域发挥作用。通过学习文本提示分布,该方法可以生成具有极大多样性的图像,保留参照图片的视觉属性,同时注入新颖的变化。

image.png

方法通过在语义空间内使用提示的语义特征拟合一个提示的高斯分布,以此来实现对生成图像的控制。正交损失项确保不同提示在语义空间中的特征差异,使生成更多样性。此外,方法还支持通过文本引导进行提示编辑,进一步增强了生成图像的个性化。

image.png

给定一组训练图像(通常为5-20张,在这里只显示4张),将生成结果与其他现有方法进行比较。我们对所有方法都使用 Stable Diffusion2.1版。从底行可以看出,这种的方法能够生成更多样化和连贯的图像。

在评估方面,DreamDistribution在自动评估和人工评估中均表现出色。使用流行的指标进行评估,如FID、CLIP-I和DINO等,结果显示该方法生成的图像在质量上明显优于基线方法。人工评估也证实了DreamDistribution生成图像的多样性和个性化程度相较于其他方法更高。

该方法不仅在生成图像的质量和多样性方面取得成功,而且展示了在更广泛生成任务中的应用潜力。研究人员使用MVDream作为3D生成模型,成功地将DreamDistribution的方法应用于3D生成任务,进一步证实了其适用性和灵活性。

然而,研究人员也指出一些不足之处,例如生成效果高度依赖于训练图片的质量和多样性,并且在3D生成上仍有提升的空间。这一工作为生成模型领域注入了新的思路,强调了在更高层面上实现个性化生成的重要性,为未来的研究提供了有益的启示。

DreamDistribution 主要特色功能总结如下:

  • Prompt 分发学习:DreamDistribution 通过学习软提示的分发,使预训练的文本到图像扩散模型能够生成新的2D/3D实例。这些软提示可以从学到的分发中进行采样,从而实现文本引导的编辑和更多功能。

  • 个性化定制:该项目专注于在更抽象的概念或类别水平上个性化文本到图像扩散模型,从一组参考图像中调整共性,并创建具有足够变化的新实例。这使得生成的图像具有多样性,同时保持与参考图像的关联性。

  • 多任务适应性:学到的提示分发不仅可以用于文本到2D图像的生成,还展示了在其他任务上的适应性,如文本到3D的生成。

  • 文本引导编辑:该方法支持文本引导的编辑功能,用户可以通过调整提示来控制生成图像的变化和混合。这增加了用户对生成过程的灵活性。

  • 应用于文本到3D生成:** 通过学习提示分发,可以应用于文本到3D生成,并支持文本引导的编辑,提供更多维度的图像生成能力。

论文地址:https://arxiv.org/abs/2312.14216

项目网址:https://briannlongzhao.github.io/DreamDistribution/

举报

  • 相关推荐
  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 大厂盯上AI玩具,你的下一个LABUBU可能出自阿里

    在2025年下半年,大厂的AI争夺战已经卷到了玩具上。 前有OpenAI宣布与玩具巨头美泰合作,后有马斯克推出AI伴侣,如今,京东更是大张旗鼓地要涉足AI玩具赛道。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 铭凡推出N5 Pro高性能NAS主机:搭载AMD AI 9 HX 370处理器、支持144TB容量

    知名迷你PC厂商MINISFORUM推出首款高性能NAS主机N5系列,包含N5和N5 Pro两款型号。N5 Pro搭载AMD锐龙AI9 HX370处理器(12核24线程/5.1GHz)和Radeon 890M核显;N5采用锐龙7H255处理器(8核16线程/4.9GHz)和780M核显。主机支持5个HDD+3个M.2硬盘(含2个U.2企业级接口),最高144TB存储容量,配备双通道DDR5内存(最高96GB)并支持ECC校验。接口方面配备2个USB4、多个USB3.2/2.0、10G/5G网口及HDMI2.1,支持PCIe4.0扩展和OCulink外接显卡。该系列兼具NAS存储与高性能计算能力,适合虚拟化、娱乐等多场景使用,N5售价3749元起,N5 Pro售价6239元起。

  • 淘宝天下入选《TopDigital2025全球AI营销图谱》

    7月29日,淘宝天下凭借AI服务平台"淘宝AI智+"的创新实践,成功入选《TopDigital2025全球AI营销图谱》"智能分析与决策"赛道。该平台整合淘宝生态数据资源,构建覆盖数据分析、智能营销、内容生成等全链路的AI解决方案体系,通过模块化设计降低使用门槛,帮助商家实现降本增效。平台还提供深度定制开发服务,推动AI能力与业务场景有机融合。此次入选标志着淘宝天下在AI技术创新与商业应用方面的成果获得行业认可。团队表示将持续聚焦AI技术实用价值转化,拓展电商营销领域的创新应用场景。

  • Testin XAgent 赋能:金融机构如何打赢 AI 测试升级战?

    在金融科技领域,软件质量是企业生存发展的生命线。从高频交易系统到在线银行平台,软件的稳定性直接关系到金融机构的声誉与客户信任。随着数字化转型深入,AI 技术正为软件测试带来革命性变革,推动行业从传统模式向智能化、自动化跨越。过去两年,生成式 AI 的崛起让软件测试迈入 “自驱” 时代。世界质量报告显示,75% 的公司正积极投资 AI 以提升质量保证能力;

  • Custouch市场易AI技术入选Topdigital2025全球AI营销图谱

    《TopDigital2025全球AI营销图谱》近日发布,Custouch市场易入选"内容智能生成"板块。该图谱为AI技术重构营销提供全链路产业地图,整合企业官网、学术报告、专利库等多维度信息。Custouch凭借AI技术在B2B营销领域的创新应用入选,其智能解决方案能有效满足企业实际需求。作为数字营销技术服务商,Custouch已为300+国际头部企业提供一站式营销管理体系,涵盖内容、活动、线索等全流程,助力企业实现高质量增长。此次入选既是对其AI成果的肯定,也是对其未来发展的激励。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • Agentic AI落地加速:迈富时企业级智能体中台2.0,让 AI Agent成为企业 “数字员工”

    Gartner将代理型AI列为2025年十大战略趋势之首,预测到2028年15%的日常工作决策将由自主智能代理完成。迈富时发布的AI-Agentforce2.0企业级智能体中台,通过"技术赋能+场景落地"双轮驱动,构建了从模型能力到业务价值的闭环。该平台具有三大核心优势:1)"模型-应用-开发平台"三位一体架构;2)ChatBox+工作流双开发模式,支持快速部署;3)企业级安全保障,满足金融等敏感行业需求。已在保险、零售、供应链等领域实现规模化应用,最高提升37%销售转化率。该方案让企业能低成本打造专属数字员工团队,真正释放代理型AI的战略价值。

  • 因为GPT-5,这群人决定在Reddit上起义。

    ​这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。

今日大家都在搜的词: