英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片

2024-02-21 08:53 · 稿源：站长之家

划重点:
⭐️ 英伟达和特拉维夫大学研究人员共同开发了一种免训练、可生成连贯图片的文生图模型 ConsiStory。
⭐️ ConsiStory 通过主体驱动自注意力（SDSA）和特征注入等核心模块，在不需要任何训练或调优的情况下实现图像主体的一致性。
⭐️ 该模型还包含锚图像和可重用主体功能，提供主题一致性的参考，避免了传统训练方法中针对每个主题进行训练的难题。

站长之家(ChinaZ.com) 2月21日消息:英伟达与特拉维夫大学的研究人员联手开发了一款名为 ConsiStory 的文生图模型（目前尚未开源），旨在解决目前文生图模型在生成内容一致性方面的挑战。

ConsiStory 采用了一种全新的方法，通过主体驱动自注意力（SDSA）和特征注入等核心模块，实现了图像主体的一致性，无需任何训练或调优。

SDSA 模块是 ConsiStory 的核心之一，扩大了扩散模型中自注意力层，允许不同图像中的主体保持一致的外观。通过主体蒙版遮蔽背景区域的敏感信息，不同图像中的主体可以相互 "对齐"，保持一致性。而特征注入则建立在扩散特征空间的密集对应图上，确保主体相关的纹理、颜色等细节特征在整个批次中互相 "对齐"，进一步增强了主体间的一致性。

此外，ConsiStory 还提供了锚图像和可重用主体功能，锚图像作为主题信息的参考，引导图像生成过程以保持一致性。可重用主体则通过共享预训练模型的内部激活，避免了传统方法中针对每个主题进行训练的难题，实现了0训练成本。这些功能共同助力 ConsiStory 成为一款无需训练即可生成连贯图片的文生图模型，为 AI 图像生成领域带来了新的可能性。

论文地址:https://arxiv.org/abs/2402.03286

（举报）

相关推荐

关键词：

端侧AI驱动产业链变革，elexcon2026聚焦芯片/存储/嵌入式核心器件创新

近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品，推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局，在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎，2025年第二季度全球腕戴设备出货量同比增长12.3%，中国市场增速达33.8%，占据全球近半份额。端侧AI驱动技术升级，供应�

智能穿戴 AI芯片市场增长
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
苹果推出网页版App Store 浏览器即可使用

苹果公司近日推出网页版App Store，用户无需依赖特定苹果设备，通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似，功能丰富且交互流畅，取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面，实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容，包括编辑推荐、热门�

苹果 App Store
以数字引擎驱动未来——太平洋电信数字化平台E-com正式上线

太平洋电信推出数字化服务平台E-com，通过模块化架构将复杂云网安方案拆解为标准化组件，实现可视化配置管理。该平台提供方案设计、在线采购、售后服务全流程支持，内置模板降低技术门槛，让企业用户可自主搭建专属方案。同时整合e-Go在线商城实现快速下单，推动行业从价格竞争转向服务价值竞争，构建开放服务生态。

数字化创新企业
航天员同款耳机出圈！能抗住太空噪音的声阔（soundcore）耳机，背后究竟有哪些硬科技？

11月3日，央视新闻发布中国航天员在空间站佩戴声阔耳机享受烧烤的视频，展现中国航天科技的成熟与自信。声阔耳机通过严苛太空环境测试，代表中国制造业最高水准，其卓越降噪与音质技术为航天员创造宁静空间。作为安克创新旗下品牌，声阔产品已覆盖全球超56个市场，2024年实现中国音频品牌无线耳机全球出货量第一，彰显"中国智造"从技术追赶到创新引领的转型。

中国空间站航天科技声阔耳机
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
佳能R50V双十一钜惠：漫展COS/汉服Vlog/直播带货一机搞定！

佳能R50V微单相机以6000元内惊喜价格亮相双十一，配备全像素双核CMOS与智能对焦系统，支持人物/动物/车辆追踪。轻巧机身仅323克，优化握持设计便于外拍。具备6K超采4K录制、14种滤镜及美肤模式，竖拍界面完美适配短视频平台。USB直连实现4K60P直播供电，特写模式自动切换焦点，适合带货与教学。多档套餐覆盖从三脚架到专业滤镜，满足动漫COS、国风Vlog等多场景创作需求，是降低门槛提升品质的优选工具。

佳能R50V 双十一微单轻巧微单
快手进军AI Coding，开发工具、模型和Maas平台齐登场

10月23日，快手StreamLake发布全新AI编程产品矩阵，以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持，KAT-Coder在权威测试中性能超越GPT-5，平台保障99.95%服务可用性。该生态旨在通过技术普惠，为企业与开发者提供颠覆性研发体验，推动AI编程普及。

AI编程快手StreamLake CodeFlicker

今日大家都在搜的词：

热文

3 天
7天

英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片

端侧AI驱动产业链变革，elexcon2026聚焦芯片/存储/嵌入式核心器件创新

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

苹果推出网页版App Store 浏览器即可使用

以数字引擎驱动未来——太平洋电信数字化平台E-com正式上线

航天员同款耳机出圈！能抗住太空噪音的声阔（soundcore）耳机，背后究竟有哪些硬科技？

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

佳能R50V双十一钜惠：漫展COS/汉服Vlog/直播带货一机搞定！

快手进军AI Coding，开发工具、模型和Maas平台齐登场

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

雷军回应小米双11战绩：谢谢大家支持

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

华为Mate 70 Air今日开售：处理器双版本可选售价4199元起

95岁巴菲特每周还上5天班此前计划年底退休

微信宣布治理恶意外部链接：6类违规内容将遭限访

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

雷军回应小米双11战绩：谢谢大家支持

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

卢伟冰：小米手机双11连续三年国产销量第一

OPPO Reno15系列定档11月17日发布

焕新享界S9开卖72小时预订突破8000台

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

华为Mate 70 Air维修备件价格公布：换主板2499元

站长商机

​英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片

今日大家都在搜的词：

热文

站长商机

英伟达推文生图模型 ConsiStory：免训练、可生成连贯图片