首页 > 业界 > 关键词  > 正文

低端显卡登上AI的大船!6GB显存就能生成高质量视频

2025-04-20 22:45 · 稿源: 快科技

快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。

根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。

FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。

目前,它底层基于定制版的腾讯混元模型,不过现有的预训练模型,都可以通过FramePack进行微调、适配。

典型的视频扩散模型在生成视频时,需要首先处理此前生成的带有噪音的帧,然后预测下一个噪音更少的帧,而每生成一帧所需要输入的帧数量,就是时域上下文长度,会随着视频的体积而增加。

这就对显存有着很高的要求,一般至少得有12GB,而如果显存不够多,生成的视频就会很短,质量很差,生成的时间也会很长。

FramePack会根据输入帧的重要性,对所有输入帧进行压缩,改变为固定的上下文长度,显著降低对显存的需求,而且计算消耗与图片扩散模型类似。

同时,每一帧画面生成之后,都会实时显示,方便即时预览。

FramePack还可以缓解漂移”(drifting)现象,也就是视频长度增加、质量下降的问题,从而在不显著牺牲质量的同时,生成更长的视频。

低端显卡登上AI的大船!6GB显存就能生成高质量视频

FramePack数据格式支持FP16、BF16,显卡硬件支持RTX 50、RTX 40、RTX 30系列显卡,除了RTX 3050 4GB几乎所有的近代显卡都没问题。

在RTX 20系列和更老显卡上尚未经过验证,也没有提及AMD、Intel处理器的需求。

操作系统支持Windows、Linux。

性能方面,RTX 4090经过teacache优化之后,每秒可以生成大约0.6帧。

低端显卡登上AI的大船!6GB显存就能生成高质量视频

举报

  • 相关推荐
  • 技术创新锚定场景需求时空壶W4Pro引领AI同传行业高质量发展

    随着AI大模型加速落地与全球化协作加深,跨语言沟通设备正朝着高精准、全场景、自然化方向迭代。时空壶推出的W4Pro AI同传耳机,凭借矢量降噪、双向同传等核心技术突破,以及全场景深度适配能力,成为行业标杆产品。其采用三麦克风阵列与矢量降噪算法,在嘈杂环境中语音识别准确率超92%,远超行业平均水平。搭载自研BabelOS同传系统,支持43种语言及96种口音互译,覆盖全球98%主流经贸区域。创新的双向同传技术将交流效率提升4倍,翻译延迟稳定在3-5秒。产品兼容微信、Zoom等软件通话及传统电话,无需对方专用设备即可开启双向实时翻译,通话后自动生成双语会议纪要。依托全球服务器智能调配,即使在弱网环境下仍能保持98%的翻译准确率。12g轻量化开放式设计兼顾佩戴舒适性与环境音感知,18小时续航满足全天高频使用需求。时空壶产品已远销170多个国家和地区,服务超百万用户与4300余家行业客户,在全球AI开放式耳机行业跻身头部阵营。

  • 实时生成开放世界:新AI模型贴脸开大,游戏研发慌不慌?

    这两天,又有一款全新的AI模型出现了。 虽说如今AI改变各行各业的事情早就屡见不鲜,在游戏业,很多岗位也或多或少已经用上了AI技术,但最近发布的这款AI模型,它真不一样。 这款AI模型名叫PixVerse R1,按官方说法,PixVerse R1是全球首个真正意义上的「实时生成世界模型(Real-time World Model)」。

  • AI测试服务商榜单透视:千亿级质量工程变革加速到来

    2026年初,中国科学院《互联网周刊》“AI测试服务商Top10”名单的公布引发行业热议。Testin云测作为唯一本土企业跻身榜单并位居首位,与 Tricentis、Katalon 等全球测试领域头部厂商同台竞技。这一格局不仅是对头部企业技术实力的集中认可,也折射出 AI 测试领域正迎来一场深层次变革——从“辅助效率工具”向“软件工程基石”的历史性跃迁。在数字化转型进入深水区的当下�

  • 腾讯混元开源翻译模型1.5:1GB内存就能流畅运行

    腾讯混元宣布开源其翻译模型1.5版本,包含1.8B和7B两个模型。该版本支持33种语言互译,涵盖5种方言,包括多种小语种,应用范围广泛。1.8B模型针对移动设备优化,仅需1GB内存即可流畅运行,端侧部署实现离线实时翻译,性能超越多数商用API。7B模型为WMT25比赛冠军模型的升级版,翻译准确率显著提升,实用性增强。两模型可协同部署,提升效果一致性与稳定性。目前模型已在官网及GitHub、Huggingface等平台上线,为开发者提供便利。

  • NVIDIA RTX 加速 PC 端 4K AI 视频生成,LTX-2 与 ComfyUI全面升级

    2025年是PC端AI发展的突破之年,小语言模型(SLM)准确率相比2024年提升近2倍,显著缩小了与云端大语言模型(LLM)的差距。NVIDIA在CES上宣布了一系列针对RTX设备的AI升级,以解锁PC上的生成式AI性能。通过优化ComfyUI、开源LTX-2视频生成模型、加速Ollama和llama.cpp等工具,实现了视频/图像生成性能最高提升3倍、显存占用最多降低60%,以及SLM推理性能最高提升35%。这些改进让用户能在本地RTX AI PC上无缝运行先进的工作流,同时享受隐私、安全和低延迟优势。全新的视频生成工作流和由Nexa.ai推出的Hyperlink本地智能搜索工具,将进一步推动生成式AI在2026年全面走向大众创作者、游戏玩家和生产力用户。

  • 即构推出AI音视频能力矩阵 助力应用突围增长

    如今,移动应用市场竞争进入了存量博弈新阶段,应用内的新玩法复制成本低,单靠独创模式难以吸引用户留存。Sensor Tower数据显示,全球应用商店双寡头垄断格局稳固,头部应用占据超60%用户时长,中小应用突围愈发艰难。行业增长逻辑已转向内容质量与优质体验,音视频质量低下可能导致用户留存与转化显著下滑。尤其是在直播语聊、网课、电商、音视频创作工具等高频�

  • AI 搜索时代,品牌如何被“看见”?GEOBase 深度实测:企业实现生成式引擎优化的实战指南

    随着生成式AI的普及,用户搜索行为从传统网页转向直接向AI提问,品牌面临“数字隐身”风险。GEO(生成式引擎优化)应运而生,旨在优化品牌在AI回答中的可见度。AIbase推出的GEOBase平台,通过多平台矩阵监控、AI引用来源分析、业务主题与语义分析、竞品对标分析等功能,帮助企业精准掌握品牌曝光与口碑,并提供从监控到优化的闭环策略,是AI时代品牌生存的“雷达系统”。

  • 短视频刷多了会脑雾:记不住事

    你是否遇到过这种情况,正准备说话,突然忘了刚才想要说什么?明明是一个比较熟悉的人,却怎么也想不起对方的名字?这就好比人的大脑被蒙上了一层雾”,不够清醒、敏锐,被称之为脑雾”。 医学专家指出,脑雾”并非医学诊断,而是患者对自身注意力涣散、精神难以集中、伴随疲惫感的生动客观描述,就像大脑中笼罩着一团雾气,清晰的思维通路被堵塞。 这种状态�

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • 9家省级质量标准实验室批准筹建,山东首批!

    山东省市场监管局批准首批9家省级质量标准实验室筹建,涵盖内燃机、智能家居、量子信息等九大重点领域。这些实验室致力于解决行业共性质量问题,突破关键技术瓶颈,研发智能化高端装备,制定重点产业标准及认证方法,推动与国际先进水平接轨。此举旨在将质量工作深度融入产业链与供应链,提升产业核心竞争力。

今日大家都在搜的词: