首页 > 业界 > 关键词  > FreeControl最新资讯  > 正文

FreeControl:无需训练即可控制任何文本到图像扩散模型的空间控制方法

2024-02-21 10:59 · 稿源:站长之家

划重点:

⭐️ FreeControl 提供一种无需训练即可控制任何文本到图像扩散模型的空间控制方法

⭐️ 支持多个条件、架构和检查点同时进行控制生成

⭐️ 通过结构和外观引导,实现对生成图像的控制

站长之家(ChinaZ.com)2月21日 消息:最新的研究中,研究人员提出了一种名为 FreeControl 的方法,可以实现对文本到图像生成模型的空间控制,而无需进行训练。这项研究支持同时控制多个条件、架构和检查点,为生成过程提供了更大的灵活性。通过结构引导和外观引导,FreeControl 能够促进生成图像与指导图像的结构对齐,以及在具有和不具有控制的情况下生成的图像之间的外观对齐。

image.png

FreeControl 方法包括分析阶段和合成阶段。在分析阶段,FreeControl 通过查询文本到图像模型生成尽少一张种子图像,然后从生成的图像中构建线性特征子空间。在合成阶段,FreeControl 利用子空间中的引导来促进与指导图像的结构对齐,以及在有控制和无控制情况下生成的图像之间的外观对齐。

研究人员展示了使用 T2I 扩散模型进行可控生成的定性结果。他们展示了支持任何条件生成的能力,并通过提供代码和相关工作的引用,展示了 FreeControl 方法的有效性和广泛适用性。

image.png

image.png

FreeControl 有助于对许多不同的架构和检查点进行方便的免训练控制,允许大多数现有免训练方法失败的具有挑战性的输入条件,并通过基于训练的方法实现有竞争力的合成质量。

项目网址:https://top.aibase.com/tool/freecontrol

论文网址:https://arxiv.org/pdf/2312.07536.pdf

举报

  • 相关推荐
  • 端侧AI驱动产业链变革,elexcon2026聚焦芯片/存储/嵌入式核心器件创新

    近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品,推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局,在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎,2025年第二季度全球腕戴设备出货量同比增长12.3%,中国市场增速达33.8%,占据全球近半份额。端侧AI驱动技术升级,供应�

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • OPPO ColorOS 16正式版推送:首批适配11款机型

    ColorOS 16正式版于10月30日启动推送,首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术,实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”,确保全场景丝滑交互;潮汐引擎首发芯片级动态追帧技术,系统重载流畅度提升37%,功耗降低13%;繁星编译器首创安卓跨级融合编译技术,大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力,为用户带来更出色的使用体验。

  • OPPO ColorOS 16正式版11月升级机型公布:支持23款机型

    ColorOS 16正式版11月升级计划公布,涵盖OPPO Find X7/N3系列、一加Ace 5系列等23款机型。系统引入极光引擎、潮汐引擎及自研繁星编译器,显著提升流畅度并降低功耗。新增一键闪记功能,支持复杂图文与超长视频录制。生态互联实现突破,全面打通Apple Watch生态,支持打车、外卖等信息跨设备显示。通过软硬协同优化,为用户打造更流畅持久的操作体验。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • 创业者“奥斯卡”!卓世科技荣膺 HICOOL2025全球创业大赛二等奖

    10月16日,HICOOL2025全球创业者峰会在京开幕。卓世科技的“璇玑玉衡大模型+MaaS训练平台+零代码Agent平台”三位一体AI全栈方案,从全球万余项目中脱颖而出,荣获大赛二等奖。该方案在模型性能、易用性及商业化闭环方面展现世界级水准,为大模型产业化落地提供标杆路径。五年来,HICOOL累计吸引167国3.4万项目参赛,孵化16家独角兽,赛后融资总额超500亿元,已成为全球最具影响力的创业赛事之一。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 三星Micro RGB色彩技术亮相进博,智绘AI家电新视界

    三星在第八届进博会上紧扣AI浪潮,展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视,融合微米级LED创新显示与AI功能,实现精准控光、更高亮度和真实色彩;同时展出144英寸Micro LED及纤薄折叠手机,体现从超大屏到移动显示的技术实力。全线产品集成Vision AI,通过影像增强、自适应音效等技术优化视听体验,并借助Galaxy AI提供个性化服务,强化在移动AI领域的领先地位。

今日大家都在搜的词: