视频版ContorlNet来了！SparseCtrl增强AI生成视频可控性

2023-11-30 16:07 · 稿源：站长之家

要点:
SparseCtrl是一种用于文本到视频（T2V）扩散模型的技术，旨在通过时间稀疏信号实现对视频结构的灵活控制，无需过多输入。
该方法引入了一个额外的条件编码器，用于处理这些稀疏信号，同时保持预训练的T2V模型不变。这种方法与多种形式的输入兼容，包括草图、深度和RGB图像，为视频生成提供更实用的控制方式。
SparseCtrl广泛适用于各种应用，包括故事板制作、深度渲染、关键帧动画和插值，为原始和个性化的T2V生成器提供了强大的泛化性能。

站长之家（ChinaZ.com）11月30日消息:在文本到视频（T2V）领域的最新研究中，SparseCtrl技术通过引入时间稀疏信号实现了对视频结构的灵活控制。传统的文本提示在空间不确定性方面存在问题，容易导致模糊的帧组合。

为了提高可控性，SparseCtrl采用了密集结构信号，如逐帧深度/边缘序列，但与此同时减轻了推断的负担。这项技术通过引入额外的条件编码器来处理这些稀疏信号，同时保持预训练的T2V模型不受影响。

项目地址:https://guoyww.github.io/projects/SparseCtrl/

最令人振奋的是，SparseCtrl对各种输入形式具有兼容性，包括草图、深度和RGB图像，从而为视频生成提供了更为实际的控制方式。

这种方法的应用领域非常广泛，涵盖了多个方面。故事板制作、深度渲染、关键帧动画和插值都能从SparseCtrl中受益。通过大量实验证明了SparseCtrl在原始和个性化T2V生成器上的泛化能力。这标志着在T2V领域迈出了一大步，不仅提高了生成视频的质量，还为用户提供了更多实用的控制手段。这项研究展示了SparseCtrl的巨大潜力，有望在未来推动文本到视频技术的发展。

在技术原理方面，SparseCtrl通过引入额外的条件编码器，实现了对时间稀疏信号的高效处理，这使得模型能够更好地理解和利用这些信号，从而实现对视频生成过程的更灵活控制。

这种技术设计的巧妙之处在于，它不需要改变已有的T2V模型，而是通过增加一个组件来增强其功能。这样的设计不仅提高了可扩展性，还有助于更好地利用现有的模型和数据。

SparseCtrl的出现为文本到视频领域注入了新的活力。其灵活性、兼容性和泛化能力使其在实际应用中具有广阔的前景。未来，我们可以期待看到SparseCtrl在各种领域的广泛应用，为视频生成领域带来更多的创新和可能性。

（举报）

相关推荐

关键词：

ChatGPT上线图库功能：可管理AI生成图片

快科技4月16日消息，据报道，OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能，该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放，包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口，就能进入一个直观的图像网格界面。在这个界面中，用户可以轻�

OpenAI ChatGPT Image
阿里开源通义新模型：指定首尾图片生成视频

快科技4月18日消息，据报道，阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面，智能生成720p高清过渡视频，为视频创作带来全新可能。该模型通过先进的深度学习算法，能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后，模型会智能分析画面中的视觉元素，包括物体形�

阿里巴巴通义万相视频生成技术
Antropic加入“AI语音助手”赛道，能追上OpenAI、谷歌们吗？

随着 AI 语音产品的出现，人们对其模仿他人说话风格的担忧也在加剧……

Anthropic AI语音助手 Claude
Trae国内版怎么用？Trae IDE 内置 MCP 市场配置使用指南

字节跳动旗下Trae+IDE发布新版本，通过MCP协议实现AI智能体与外部工具的深度集成。MCP作为标准化桥梁，让开发者能灵活接入Supabase、FireCrawl等第三方服务，只需@符号即可调用智能体完成数据库操作、文档搜索等复杂任务。新版本内置MCP市场，支持Token快速配置，并演示了如何通过Figma+AI自动生成前端代码。该技术可应用于Blender建模、K8s管理等多元场景，显著提升开发效率。Trae+IDE将持续扩展工具生态，推动AI协作开发新时代。

字节跳动 Trae IDE
GTA增强版登录XGP免费玩！XGP怎么免费玩GTA增强版

GTA增强版上线XGP了，GTA增强版可以说是让我们的老朋友焕发了新的生机，更顶尖的游戏画面，更丰富的游戏内容，一定给各位新老朋友带来更好地体验。上XGP之后，我们的游玩也是多了一个新的选择，在XGP中入手会员就能免费玩GTA增强版，还有XGP的其他游戏，整体算起来还是比较优惠的，今天教大家XGP怎么免费玩GTA增强版。在XGP上玩游戏，要先优化网络，作为一款外服平台，�

GTA增强版 XGP 网络优化
Arm 荣登《Fast Company》2025 年度最具创新力 AI 公司榜单

Arm 近期荣登《Fast Company》2025 年度最具创新力公司榜单，并在人工智能 (AI) 类别中位列第七*。《Fast Company》自 2008 年发布“最具创新力公司”榜单以来，该榜单一直作为全球企业革新行业和塑造社会的基准，其依据创新性、影响力、时效性和相关性四大标准进行资格筛选。入选榜单的公司不仅代表其创新成果具备显著的商业与行业影响力，更被视为所在领域的引领者，推动世�

Arm 创新力公司人工智能
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

向 AI 倾诉情感在短期内可能会带来安慰，但过度依赖则存在风险。通过即时的回应可以获得暂时的稳定感，但从长远来看，这会让人失去培养情绪调节能力和解决问题能力的机会……

人工智能 AI技术 AI聊天机器人
用户吐槽“ChatGPT太谄媚”，OpenAI 回滚“个性化”更新

OpenAI 想要为 ChatGPT 塑造一个更友好、更具支持性的个性。他们最新发布的更新确实符合这一描述，但有点过界了……

GPT4o GPT4o怎么用 GPT4o官网
Intel Panther Lake首发版本曝光！其它等明年

快科技5月2日消息，根据最新消息，今年底英特尔将推出PantherLake处理器的首个SKU4P 8E 0LPE 4Xe版本，其他配置版本则要等到2026年初才会发布。4P 8E配置版本与此前传闻的4P 8E 4LPE 12Xe版本有所不同，该版本版本不包含LPE核显，搭配的是4个Xe3GPU核心。该版本TDP为45W，明显高于LunarLake的17W至28W，综合来看，这一配置显然更适合游戏笔记本，因为在这种设备中，集成显卡的重要性相对较低。目前PantherLake已曝光的SKU共有四个，具体如下：4P-Cores 8E-Cores 0LP-ECores 4Xe3Cores(45W)4P-Cores 8E-Cores 4LP-ECores 12Xe3Cores(25W)4P

PantherLake处理器英特尔新产品游戏笔记本配置

热文

3 天
7天

视频版ContorlNet来了！SparseCtrl增强AI生成视频可控性

ChatGPT上线图库功能：可管理AI生成图片

阿里开源通义新模型：指定首尾图片生成视频

Antropic加入“AI语音助手”赛道，能追上OpenAI、谷歌们吗？

Trae国内版怎么用？Trae IDE 内置 MCP 市场配置使用指南

GTA增强版登录XGP免费玩！XGP怎么免费玩GTA增强版

Arm 荣登《Fast Company》2025 年度最具创新力 AI 公司榜单

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

用户吐槽“ChatGPT太谄媚”，OpenAI 回滚“个性化”更新

Intel Panther Lake首发版本曝光！其它等明年

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

基于安卓16的三星 One UI 8 本月发布首个测试版本

站长商机