首页 > 业界 > 关键词  > ConsiStory最新资讯  > 正文

​英伟达推文生图模型 ConsiStory:免训练、可生成连贯图片

2024-02-21 08:53 · 稿源:站长之家

划重点:

⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory

⭐️ ConsiStory 通过主体驱动自注意力(SDSA)和特征注入等核心模块,在不需要任何训练或调优的情况下实现图像主体的一致性。

⭐️ 该模型还包含锚图像和可重用主体功能,提供主题一致性的参考,避免了传统训练方法中针对每个主题进行训练的难题。

站长之家(ChinaZ.com) 2月21日 消息:英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型(目前尚未开源),旨在解决目前文生图模型在生成内容一致性方面的挑战。

ConsiStory 采用了一种全新的方法,通过主体驱动自注意力(SDSA)和特征注入等核心模块,实现了图像主体的一致性,无需任何训练或调优。

image.png

SDSA 模块是 ConsiStory 的核心之一,扩大了扩散模型中自注意力层,允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息,不同图像中的主体可以相互 "对齐",保持一致性。而特征注入则建立在扩散特征空间的密集对应图上,确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐",进一步增强了主体间的一致性。

image.png

此外,ConsiStory 还提供了锚图像和可重用主体功能,锚图像作为主题信息的参考,引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活,避免了传统方法中针对每个主题进行训练的难题,实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型,为 AI 图像生成领域带来了新的可能性。

论文地址:https://arxiv.org/abs/2402.03286

举报

  • 相关推荐
  • 文生图大模型有哪些?探索AI绘画的核心引擎与选择利器

    本文探讨了当前主流的AI文生图技术及其应用场景。国际阵营中,OpenAI的DALL·E3擅长复杂语义理解,MidJourney以艺术风格见长,Stable Diffusion则以开源生态支持深度定制。中国力量方面,百度文心一格在中文语义和国风创作表现突出,阿里通义万相侧重商业化应用,昆仑万维天工支持长文本生成连贯图像。垂直领域工具如Adobe Firefly深度集成设计流程,Runway ML革新视频创作。文章建议通过聚合平台高效对比模型特性,并指出下一代技术将突破分辨率限制,实现跨模态生成。从精准语义到无限可能,AI文生图正在重塑视觉创作边界。

  • 微信iOS又有新功能 聊天终于能发实况图片了

    日前,微信iOS版又迎来新功能与好友聊天支持发送实况照片,目前为灰度测试阶段。 据了解,使用该功能需要将微信iOS更新至8.0.61版本及以上,默认实况为关闭状态,发送照片时点击进入大图预览页面可手动开启单个照片的实况开关。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 微软以Maia 280开启新局对垒英伟达,Meta/微美全息开源联动引领AI创新

    微软自研AI芯片Braga因设计问题延期至2026年,将推出过渡产品Maia280,性能或提升30%。微软原计划2025年量产Braga芯片以减少对英伟达的依赖,但延期导致后续产品线同步推迟。面对英伟达在AI芯片领域的主导地位(市占率超80%,年销售额增长10倍),微软正调整战略转向更务实的迭代路线。与此同时,Meta成立"超级智能团队"加速AI研发,微美全息押注量子计算等前沿技术。行业分析师认为,由于英伟达技术迭代速度极快(年增长32%),多数企业自研芯片计划可能最终难以抗衡其市场领导地位。

  • 英伟达成首家市值超4万亿美元公司

    科技巨头英伟达在资本市场大放异彩,股价上涨2.5%,报收于163.9美元/股,凭借这一表现,其总市值成功攀升至4万亿美元,一举成为全球首家市值突破这一惊人关口的公司,再次刷新了资本市场的纪录。 在全球市值排名中,英伟达稳坐头把交椅,微软以3.74万亿美元的市值位居第二,苹果则以3.14万亿美元位列第三。

  • 微信朋友圈评论区能发表情包和图片:缓存可清理 不会太占用存储空间

    上个月,微信开始灰度测试朋友圈评论区带图功能,支持用户用表情包和图片进行评论。 有网友表示,微信现在评论可以带图了,我想知道评论区的图片会不会缓存下来占用我的手机空间。 对此,微信员工客村小蒋表示,在讨论微信占空间时,有两种需要区分的数据:可再生数据和非可再生数据。

  • AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3

    【AI日报】今日AI领域重要动态:1)腾讯元宝升级,支持一句话搜索呈现图文视频;2)微信支付MCP上线,AI与支付结合开启商业新纪元;3)谷歌Veo3视频生成模型向Pro/Ultra会员开放,新增"照片生成视频"功能;4)开源DeepSeek R1增强版推理效率提升200%;5)美图WHEE推出"一句话修图"功能;6)芯片公司Ambiq申请美国IPO,受益生成式AI需求;7)昆仑万维开源奖励模型Skywork-Reward-V2;8)Kyutai发布超低延迟开源语音合成技术;9)Figma拟以200亿美元估值登陆纽交所;10)字节跳动开源Trae-Agent智能开发工具。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 攀升科技携手英伟达亮相BW2025,RTX主机限时福利大放送

    7月11-13日,攀升科技以"乐玩AI+趣享攀升"为主题亮相Bilibili World 2025展会。现场设立GeForce RTX体验区,玩家可试玩《永劫无间》等游戏,感受RTX50系列显卡带来的极致画质和DLSS4技术。重点展示AI技术在游戏中的创新应用,如通过NVIDIA ACE技术实现AI队友语音互动。展会期间推出多款优惠主机:RTX5060主机搭载i5-14600KF处理器,48G DDR5内存,享政府补贴后到手价优;RTX5070主机采用Blackwell架构,AI算力达988TOPS,原价10699元,补贴后仅8699元。攀升科技诚邀玩家亲临4A18展位体验RTX技术魅力。