首页 > 业界 > 关键词  > DreamDistribution最新资讯  > 正文

文生图模型升级!DreamDistribution:基于少量参照图片无限生成多样个性化图片

2024-01-16 15:05 · 稿源:站长之家

**划重点:**

- 🚀 **全新方法:** 南加州大学、哈佛大学等团队推出DreamDistribution,一种基于提示学习的生成模型,可通过极少数量的参照图片生成高度多样且个性化的图像。

- 🖼️ **多领域应用:** 该方法不仅适用于文本生成图像,还可扩展到3D生成,实现更广泛的个性化生成任务。

- 📊 **评估结果:** DreamDistribution在自动和人工评估中均取得卓越成绩,相较于传统方法,生成图像更具多样性和质量。

站长之家(ChinaZ.com) 1月16日 消息:来自南加州大学、哈佛大学等机构的研究团队最近提出了一项创新性的生成模型方法,名为DreamDistribution。这一方法基于提示学习,能够通过仅有的几张参照图片学习文本提示分布,从而实现高度多样化和个性化的图像生成。

image.png

DreamDistribution找到参考图像的提示分布,然后可用于生成新的2D/3D 实例,能够进行文本引导编辑等。

DreamDistribution的独特之处在于它不仅适用于文本生成图像,还能在3D生成领域发挥作用。通过学习文本提示分布,该方法可以生成具有极大多样性的图像,保留参照图片的视觉属性,同时注入新颖的变化。

image.png

方法通过在语义空间内使用提示的语义特征拟合一个提示的高斯分布,以此来实现对生成图像的控制。正交损失项确保不同提示在语义空间中的特征差异,使生成更多样性。此外,方法还支持通过文本引导进行提示编辑,进一步增强了生成图像的个性化。

image.png

给定一组训练图像(通常为5-20张,在这里只显示4张),将生成结果与其他现有方法进行比较。我们对所有方法都使用 Stable Diffusion2.1版。从底行可以看出,这种的方法能够生成更多样化和连贯的图像。

在评估方面,DreamDistribution在自动评估和人工评估中均表现出色。使用流行的指标进行评估,如FID、CLIP-I和DINO等,结果显示该方法生成的图像在质量上明显优于基线方法。人工评估也证实了DreamDistribution生成图像的多样性和个性化程度相较于其他方法更高。

该方法不仅在生成图像的质量和多样性方面取得成功,而且展示了在更广泛生成任务中的应用潜力。研究人员使用MVDream作为3D生成模型,成功地将DreamDistribution的方法应用于3D生成任务,进一步证实了其适用性和灵活性。

然而,研究人员也指出一些不足之处,例如生成效果高度依赖于训练图片的质量和多样性,并且在3D生成上仍有提升的空间。这一工作为生成模型领域注入了新的思路,强调了在更高层面上实现个性化生成的重要性,为未来的研究提供了有益的启示。

DreamDistribution 主要特色功能总结如下:

  • Prompt 分发学习:DreamDistribution 通过学习软提示的分发,使预训练的文本到图像扩散模型能够生成新的2D/3D实例。这些软提示可以从学到的分发中进行采样,从而实现文本引导的编辑和更多功能。

  • 个性化定制:该项目专注于在更抽象的概念或类别水平上个性化文本到图像扩散模型,从一组参考图像中调整共性,并创建具有足够变化的新实例。这使得生成的图像具有多样性,同时保持与参考图像的关联性。

  • 多任务适应性:学到的提示分发不仅可以用于文本到2D图像的生成,还展示了在其他任务上的适应性,如文本到3D的生成。

  • 文本引导编辑:该方法支持文本引导的编辑功能,用户可以通过调整提示来控制生成图像的变化和混合。这增加了用户对生成过程的灵活性。

  • 应用于文本到3D生成:** 通过学习提示分发,可以应用于文本到3D生成,并支持文本引导的编辑,提供更多维度的图像生成能力。

论文地址:https://arxiv.org/abs/2312.14216

项目网址:https://briannlongzhao.github.io/DreamDistribution/

举报

  • 相关推荐
  • 数贸会今日开幕!每日互动展台人气火爆,GAI Station引领AI办公新体验

    2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司(展位7A-T022)集中展示了AI产业实践与数据流通领域成果,重点推出10万元级智能工作站GAI+Station,集成写作、会议纪要、智能问答等功能,内置8大模型能力,破解成本与安全痛点。其“发数站”战略打通数据高效流通链路,已在医疗、交通等多领域落地,“数智绿波”应用覆盖全国30多个省市,通行效率提升20%以上。此外,AITA超级营销助手实现升级,机器狗互动表演吸引关注。展会期间将举办10余场专业发布,涵盖数据要素、大模型应用等行业实战,助力企业把握数字化机遇。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 2025 TikTok for Business 出海电商营销峰会:从产品到策略,抢抓生意增长 5 大机遇

    全球电商持续增长,TikTok凭借庞大用户基础、高粘性社群和全链路营销能力,已成为中国品牌出海首选平台。TikTok for Business通过“2025SHOPNOW品牌电商出海营销峰会”分享智能营销策略,提出扩题材、扩人群、扩渠道、扩市场、抓节点的五大抓手,助力商家实现闭环与开环场景协同增长。平台推出GMV Max、Smart+ Catalog Ads等工具,优化直播与内容种草效率,并通过AI技术提升创意制作能力。针对节点营销,建议提前蓄水、精准投流,把握全球市场机遇,实现品牌长效增长。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 购机选Intel还是AMD?终结选择困难!不同场景对比避坑攻略

    文章对比了英特尔酷睿Ultra 5 225H与AMD锐龙AI 9 H365处理器在大学生学习场景中的表现。测试显示,英特尔在续航和AI创作效率方面优势明显:图书馆场景下续航多50%,视频剪辑等AI任务处理速度快40%,且价格更低。结论指出,酷睿Ultra平台更适合需要长续航、高效AI应用且注重性价比的学生群体,是大学四年的明智选择。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 真我GT8 Pro镜头模组支持DIY!可拆、可拼、可换

    真我GT8+Pro手机公布镜头模组创新设计,采用可拆卸、可拼装、可更换的Deco模块,提供圆形、方形及机器人造型供用户DIY。搭载2亿像素潜望长焦“Ultra之眼”,配备对称双扬声器、X轴线性马达及3D超声波屏下指纹。全系配备2K+144Hz京东方Q10+发光材料屏幕,峰值亮度达4000nit。首批搭载骁龙8至尊版处理器,并配备电竞独显芯片R1,实现“王炸双芯”配置。

今日大家都在搜的词: