首页 > 传媒 > 关键词  > AI内容生成最新资讯  > 正文

如何在 NVIDIA RTX PC 上开始使用视觉生成式 AI

2026-01-26 17:49 · 稿源: 站长之家用户

作者: Joel Pennington US

+++

AI 驱动的内容生成如今已深度融入 Adobe、Canva 等热门工具,众多机构与工作室也已将该技术纳入工作流。当下的图像模型能够稳定输出逼真的写实效果,视频模型可以生成时长更长、连贯性更强的画面内容,而两者都能够遵循创作指令进行生成。

创作者正越来越多地在本地 PC 上运行这些工作流,以便把控创作素材、节省云服务成本,避免反复修改的阻碍,从而更高效地优化生成结果,满足创意项目的创作时间需求。

自诞生以来,NVIDIA RTX PC 凭借强大的性能成为运行创意 AI 的首选平台,不仅大幅缩短了迭代时间,还允许用户免费在本地运行模型,彻底消除了对 Token 消耗的焦虑。

本月早些时候在 CES 上发布的 RTX 优化与全新开放权重模型让创作者能以更快的速度、更高的效率进行创作,并获得远超以往的创意呈现。

如何开始

视觉生成式 AI 可能会让新用户感觉复杂且有诸多限制。在线AI生成工具虽然使用简单,但可控性有限。

ComfyUI 这样的开源社区工具简化了高级创意工作流的搭建,且安装便捷。同时,它们还提供了获取最新、强大的模型,如 FLUX.2和 LTX-2,以及优秀社区工作流的简单途径。

以下是如何在 RTX PC 上使用 ComfyUI 和主流模型,使用视觉生成式 AI 进行本地创作的方法:

1. 访问  下载并安装适用于Windows的ComfyUI。

2. 启动ComfyUI。

3. 使用入门模板创建第一张图像:

1. 点击“模板”按钮,然后选择“快速开始”,并选择“文本转图片”。

2. 将模型“节点”连接到“保存图像”节点。这些节点以流水线方式协同工作,利用AI生成内容。

3. 点击蓝色的“运行”按钮,观察绿色“节点”高亮显示,RTX PC 将开始生成你的第一张图像。

修改提示词并再次运行,即可进一步深入探索视觉生成式AI的创作世界。

下面介绍了如何深入使用更多 ComfyUI 模板,体验采用更高级的图像与视频模型的创作流。

模型规模与 GPU

当用户逐渐熟悉 ComfyUI 及其支持的模型后,就需要开始考虑GPU显存容量,以及某个模型是否能够在显存范围内运行。以下是根据不同 GPU 显存容量给出的入门示例:

[1] *为获得最佳效果,建议在 NVIDIA GeForce RTX50系列 GPU 上使用 FP4模型,在 RTX40系列 GPU 上使用 FP8模型。这样可以在占用更少显存的同时提供更高性能。

[2] *为获得最佳效果,建议在 NVIDIA GeForce RTX50系列 GPU 上使用 FP4模型,在 RTX40系列 GPU 上使用 FP8模型。这样可以在占用更少显存的同时提供更高性能。

生成图像

探索如何使用FLUX.2-Dev提升图像生成质量:

在 ComfyUI 的“模板”部分,点击“所有模板”,并搜索“FLUX.2Dev 文生图”。选择后,ComfyUI 将加载一组已连接的节点,即“工作流”。

FLUX.2-Dev 包含需要下载的模型权重。

模型权重是 AI 模型内部所包含的“知识”,可以将其理解为大脑中的突触。当像 FLUX.2这样的图像生成模型被训练时,它会从数百万张图像中学习模式,而这些模式会以数十亿个数值的形式存储下来,这些数值就被称为“权重”。

ComfyUI 并未内置这些权重文件,而是在需要时从 Hugging Face 等仓库中按需下载。这些文件体积通常很大(FLUX.2根据版本不同,大小可能超过30GB),因此系统需要具备足够的存储空间,并预留相应的下载时间。

系统会弹出一个对话框,引导用户下载模型权重。权重文件(filename.safetensors)会自动保存到用户 PC 上 ComfyUI 对应的正确文件夹中。

保存工作流:

在模型权重下载完成后,下一步是将这个新下载的模板保存为一个“工作流”。

点击左上角的汉堡菜单(三条横线),选择“保存”。该工作流将被保存到用户的“工作流”列表中(按下 W 键可显示或隐藏该窗口)。随后可关闭标签页,在不丢失任何内容的情况下退出该工作流。

如果在模型权重尚未下载完成前意外关闭了下载对话框:

● 按下 W 键可快速打开“工作流”窗口。

● 选择该工作流,ComfyUI 将重新加载,并自动提示下载缺失的模型权重。

此时,ComfyUI 已准备就绪,可使用 FLUX.2-Dev 生成图像。

FLUX.2-Dev提示词技巧:

● 从清晰、具体的主体、场景、风格和氛围描述开始,例如:“电影感特写,一辆雨中的复古赛车,湿漉漉的柏油路面上映出霓虹反射,高对比度,35mm 摄影。”在入门阶段,简短到中等长度的提示词——一两句聚焦明确的描述——通常比冗长、故事化的提示更容易控制效果。

● 添加约束条件以引导一致性和质量,例如:

○ 构图(“广角镜头”或“人像构图”)

○ 细节水平(“高细节,清晰对焦”)

○ 写实程度(“写实风格”或“风格化插画”)

● 如果画面显得过于杂乱,优先减少形容词,而不是继续添加。

● 避免使用负面提示词,专注描述你想要的内容。

请参见 Black Forest Labs 提供的指南,了解更多关于FLUX.2提示词的使用技巧。

本地存储路径:

完成图像细化后,右键点击“保存图像”节点,即可在浏览器中打开图像,或将其保存到新的位置。

根据应用类型和操作系统不同,ComfyUI 的默认输出文件夹通常如下:

● Windows(独立版/便携版):通常位于C:\ComfyUI\output,或程序解压目录下的类似路径。

● Windows(桌面版):路径通常位于AppData目录中,例如:C:\Users%username%\AppData\Local\Programs@comfyorgcomfyui-electron\resources\ComfyUI\output

● Linux:默认安装路径为~/.config/ComfyUI。

视频生成

以全新的 LTX-2模型为例,探索如何提升视频生成质量:

Lightrick 的 LTX-2是一款先进的音视频模型,专为在 ComfyUI 中实现可控、分镜式的视频生成而设计。在下载完成 LTX-2 图生视频 模板及模型权重后,建议将提示词视为简短的镜头描述,而非完整的电影剧本。

与前两个模板不同,LTX-2 图生视频 结合了一张图像与文本提示词来生成视频。

用户可以选用在 FLUX.2-Dev 中生成的图像之一,并添加文本提示词,让画面“动”起来。

LTX-2 提示词技巧:

为在ComfyUI中获得最佳效果,建议将提示词用现在时写成一个连贯的段落,或采用简洁的脚本格式,包括场景标题、动作、角色名称和对白。整体以4到6句描述性语句为宜,覆盖所有关键要素:

● 确立镜头与场景(远景/中景/特写、光照、色彩、材质、氛围)。

● 将动作描述为清晰的连续过程,定义角色的可见特征与肢体语言,并明确镜头运动方式。

● 最后补充音频元素,如环境音、音乐和对白,并使用引号标注。

细节层级需与镜头尺度相匹配。例如,特写镜头比远景镜头更需要精确的角色与材质细节。要清楚说明镜头与主体之间的关系,而不仅仅是镜头如何移动。

提示词中可考虑加入更多细节,包括:

● 镜头运动语言:明确指定“缓慢推轨前进”“手持跟拍”“过肩镜头”“横向摇摄”“向上俯仰”“推进”“拉远”或“固定镜头”等。

● 镜头类型:清晰说明远景、中景或特写,并结合合适的光照、浅景深与自然运动。

● 节奏:引导使用慢动作、延时摄影、停留镜头、长镜头、定格画面或无缝转场,以塑造节奏与氛围。

● 环境氛围:加入雾气、薄雾、雨水、黄金时刻光线、反射效果和丰富的表面纹理等场景细节,让画面更具真实感。

● 风格:在提示词开头明确风格,如绘画感、黑色电影、胶片风格、定格动画、像素化边缘、时尚大片或超现实风格。

● 光照:使用具体语言描述逆光、特定配色方案、柔和轮廓光、镜头光晕或其他光照细节。

● 情绪:重点刻画单一主体的表演,通过清晰的面部表情和细微动作传达情感。

● 声音与音频:提示角色使用不同语言说话或歌唱,并配合明确的环境音描述。

优化显存占用和图像质量

作为一款前沿模型,LTX-2为了提供高质量效果,需要占用大量显存(VRAM)。随着分辨率、帧率、视频时长或采样步数的提升,显存占用也会随之增加。

ComfyUI 与 NVIDIA 合作优化了一项 weight streaming 功能,当 GPU 显存不足时,可将工作流的部分内容卸载到系统内存中运行——但这会以性能下降为代价。

根据GPU型号和使用场景的不同,用户可能需要对这些因素加以限制,以确保生成时间保持在合理范围内。

LTX-2是一款极其先进的模型——但与任何模型一样,参数设置的调整都会对最终质量产生显著影响。

了解如何在 RTX GPU 上优化 LTX-2,请参考用于 ComfyUI 的 LTX-2快速入门指南,

使用 FLUX.2-Dev 与 LTX-2 构建自定义工作流

用户如需简化在不同 ComfyUI 工作流之间来回切换、在本地寻找 FLUX.2-Dev 生成的图片并插入 LTX-2工作流中的过程,可以将 FLUX.2-Dev 与 LTX-2组合到一个新的工作流中:

● 打开已保存的 FLUX.2-Dev 文本转图像工作流。

● 按住 Ctrl 并用鼠标左键点击 FLUX.2-Dev 文本转图像节点。

● 在 LTX-2图像转视频工作流中,使用 Ctrl+V 粘贴该节点。

● 将鼠标悬停在 FLUX.2-Dev  文本转图像节点的 “IMAGE” 接口点上,按住左键并拖动至 “调整图像/掩码大小” 接口点,蓝色连接线将自动生成。

以新名称保存该工作流,即可在同一个工作流中同时为图像和视频输入提示词。

高级 3D 生成

在使用 FLUX.2生成图像、LTX-2生成视频后,下一步是加入3D 引导。NVIDIA 的3D 引导生成式 AI Blueprint 展示了如何利用3D 场景与资产,在 RTX PC 上驱动更可控、面向专业制作流程的图像与视频管线——并提供现成的工作流,供用户查看、调整和扩展。

创作者还可以在 Stable Diffusion subreddit 和 ComfyUI Discord 上展示作品、与其他用户交流并获取帮助。

#别错过 — NVIDIA RTX AI PC 的最新进展

NVIDIA @ CES2026

NVIDIA 在 CES 发布的内容包括 NVIDIA RTX 加速 PC 端4K AI 视频生成,LTX-2与 ComfyUI全面升级。ComfyUI、LTX-2、Llama.cpp、Ollama、Hyperlink 等迎来全面 RTX 加速,解锁 AI PC 上的视频、图像与文本生成应用场景。

Black Forest Labs 的多种 FLUX2 版本

FLUX.2[klein] 是一组紧凑、超高速的模型,支持图像生成与编辑,并提供业界领先的图像质量。这些模型通过 NVFP4与 NVFP8加速,速度最高可提升2.5倍,在 RTX GPU 上实现高性能运行。

NVIDIA RTX AI PC的相关信息请关注微博、抖音及哔哩哔哩官方账号。

软件产品信息请查看声明。

关于NVIDIA

NVIDIA (NASDAQ: NVDA) 是加速计算领域的全球领导者。

# # #

媒体咨询:

Jade Li

NVIDIA GeForce, Studio PR

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 1.4万个账号栽了!抖音严查AI生成低俗擦边内容

    抖音近期严打AI生成色情低俗内容,已处置4.2万条违规内容,对1.4万个账号采取限制推荐、禁言、封禁等处罚。部分用户利用AI技术生成低俗擦边内容,甚至通过塑造特定人设、发布性感视频并搭配性暗示文案,诱导用户跳转至第三方平台下载色情应用。其中一黑产团伙4人已被刑事拘留。平台还发现部分账号将AI生成的美女图片设为直播间封面,引导观众查看主页收藏进而为色情网站导流,已对339个账号无限期回收直播权限。抖音表示此类行为已涉嫌违法,平台会主动将线索上报公安机关,并将持续升级治理技术,提升对AI生成不良内容的识别处置能力。

  • 拒绝向大模型“投毒”!PureblueAI清蓝用可信优化构建品牌AI护城河

    Gartner预测,到2028年,50%的搜索引擎流量将被AI搜索取代。随着AI大模型的普及,互联网流量入口正从“搜索”向“对话与推荐”迁移。消费者决策方式转变,品牌如何被AI推荐成为CMO的核心挑战。部分服务商采用“黑帽”手段污染AI模型数据,损害消费者权益与品牌声誉。PureblueAI清蓝提出以可信优化技术应对,通过真实、优质的数字内容建立品牌长期护城河,并推出企业AI营销平台mkter.ai,以AI原生数字员工“Mark”助力品牌实现AI口碑全域优化。

  • 建议为AI生成内容添加不可去除水印上热搜

    今年两会期间,AI生成内容可能带来的虚假信息传播和侵权问题成了不少全国人大代表关注的焦点。多位代表明确提出建议,呼吁建立“不可去除的数字水印”制度,让所有AI生成内容都强制添加永久性标识。 全国人大代表、山东省音乐家协会名誉主席刘晓静就指出,现在AI换脸、拟声技术已经被不法分子盯上,用来搞诈骗、侵权,还制造虚假信息,危害不小。她建议建立AI生�

  • 和别人用一样的“提示词”生成相同的AI作品 算不算侵权?法院判了

    上海黄浦区法院近日审理一起AI生成图片著作权纠纷案。原告公司使用AI生成艺术图片后,发现他人用相同提示词生成相似画作并收录于艺术图鉴,遂以侵犯著作权为由起诉。法院审理认为,提示词虽反映创作意图,但仅为词汇拼接,未体现作者个性化智力投入,不构成著作权法意义上的“作品”,因此原告对提示词不享有著作权,无权主张侵权。判决驳回原告诉讼请求。

  • 爱诗科技完成 3 亿美元 C 轮融资,鼎晖领投,开启“实时交互”视频生成新纪元

    AI视频生成领军企业爱诗科技近日完成3亿美元C轮融资,由鼎晖香港基金、鼎晖VGC、鼎晖百孚领投,产业投资人中国儒意、三七互娱,以及亦庄国投、众为资本、国泰君安创新投资、苏创投集团、苏州卓睿、华控基金、复星锐正、苏州宜和等多家全球知名家族办公室和海外投资机构参与。本轮融资刷新了亚洲AI视频生成领域的最大单次融资纪录。爱诗科技将深耕通用视频模型和世界模型,加速PixVerse全球创作者生态建设,并推动全行业API商业化深度落地。其PixVerse V5.6模型在全球权威AI评估机构榜单中位列视频生成模型第一梯队,技术实力获国际认可。公司全球用户规模已突破1亿,月活跃用户超1600万。未来,爱诗科技将继续助力全球创作者跨越技术鸿沟,共同开启AIGC驱动的数字内容新纪元。

  • 字节聚力GEO技术解读:如何让AI大模型主动推荐你的品牌

    文章介绍了字节聚力公司提出的GEO(生成式引擎优化)技术,旨在帮助品牌在AI大模型时代获得优先推荐。GEO通过四大核心系统实现:构建企业知识图谱,使AI能“理解”品牌价值;训练专属智能体(GEO-Agent)进行策略决策;针对不同AI平台优化内容分发;并通过用户意图监测平台实现动态优化。该技术标志着从传统SEO到适应AI认知逻辑的转变,帮助品牌成为大模型眼中的“可信答案”。

  • 谷歌Nano Banana 2图像模型正式发布:4K生图 速度更快 成本砍半

    今日,谷歌正式发布新一代图像生成模型Nano Banana 2,主打更快、更便宜、更易用的高质量图像生成能力。 据了解,Nano Banana 2将陆续接入Gemini、Google搜索、AI Studio、Flow、付费API以及Google Ads等平台,并逐步全面替代旧版模型。 官方介绍称,该模型基于Gemini 3.1 Flash Image构建,融合了Nano Banana Pro级别的图像生成质量、推理能力与世界知识,同时继承Flash系列模型的高速生成优势,

  • AI日报:谷歌Nano Banana 2正式上线;可灵3.0全球视频模型第一;周鸿祎直言AI眼镜难做

    本期AI日报聚焦多领域进展:谷歌Gemini App更新,图像生成模型Nano Banana 2上线,支持2K分辨率与文字渲染;快手可灵3.0在视频生成基准测试中表现优异,彰显中国AI技术领先地位;周鸿祎指出AI眼镜硬件门槛高,未来应聚焦智能体技术;阿里巴巴推出千问AI眼镜,整合生态提供智能生活体验;xAI联合创始人离职引发核心团队变动关注;豆包手机助手回应安全争议,称未收到漏洞报�

  • 2026年GEO优化公司评测对比:基于AI大模型“认知友好度”的五维战力排位赛

    本文基于AI大模型底层逻辑,首创“AI认知友好度五维评估体系”,深入剖析了六家头部GEO服务商如何帮助企业从“被看见”跨越到“被信任”。报告指出,传统搜索引擎的“蓝色链接”霸权正在瓦解,企业竞争焦点已从“如何被百度收录”转向“如何让AI在生成答案时优先推荐我”。通过量化评估发现,数据一致性、多模态对齐和鲁棒性成为AI时代营销的三大铁律。报告为不同企业提供了选型建议,并强调GEO优化已成为品牌在AI时代保持“存在感”的战略投资。

  • 小度全产品矩阵亮相 AWE,看大模型时代如何让 AI 真正走进千家万户

    3月12日,中国家电及消费电子博览会(AWE2026)将在上海开幕。作为行业领先的AI助手硬件品牌,小度科技将首次携全系产品矩阵亮相,展示其“场景+AI+硬件”战略的落地成果。从智能音箱、智能屏到AI眼镜、智能摄像头等硬件,以及AI酒店、AI养老等行业解决方案,小度将呈现一个完整的AI生态。这一切的背后,是2025年底升级的“超能小度”——基于大模型打造的多模态AI智能助手,让小度产品真正具备了“看见”世界、“思考”需求的能力。在AWE现场,观众将有机会亲身体验多模态AI如何重塑家庭看护、随身办公、智能交互等场景。小度正以实际行动回答:大模型时代,AI应如何走进千家万户。

今日大家都在搜的词: