首页 > 业界 > 关键词  > instaflow最新资讯  > 正文

instaflow:利用校正流技术加快将文本转化为图像的过程

2023-09-15 10:19 · 稿源:站长之家

站长之家(ChinaZ.com)9月15日 消息:InstaFlow是一个快速、一步生成图像的模型,能够以接近Stable Diffusion的图像质量显著减少计算资源需求。这种高效率源自最近的Rectified Flow技术,它训练具有直线轨迹的概率流,因此本质上只需要一步即可进行快速推理。

image.png

项目地址:https://github.com/gnobitab/instaflow

InstaFlow具有几个优点:

极快推理:InstaFlow模型是一步生成器,它直接将噪声映射到图像,避免了弥散模型的多步采样。 在我们的A100GPU机器上,推理时间约为0.1秒,与原始Stable Diffusion相比可节省约90%的推理时间。

高质量:InstaFlow生成具有Stable Diffusion那样复杂细节的图像,在MS COCO2014数据集上的FID与最先进的文本到图像GAN(如StyleGAN-T)相当。

简单高效的训练:InstaFlow的训练过程只涉及有监督训练。 借助预训练的Stable Diffusion,仅需199个A100GPU天即可获得InstaFlow-0.9B。

方法:用文本调整的反流整流生成概率流

image.png

流程包括三个步骤:

1. 从预训练的Stable Diffusion生成(文本,噪声,图像)三元组

2. 应用文本调整的反流生成2-Rectified Flow,这是一条整流的生成概率流。

3. 从2-Rectified Flow中迁移学习得到一步InstaFlow。 注意迁移学习和反流是正交的技术。

如视频和图像所示,直线流具有以下优点:

1. 直线流需要更少的步骤来模拟。

2. 直线流在噪声分布和图像分布之间提供了更好的耦合,因此允许成功的迁移学习。

InstaFlow的核心功能有:

- 快速一步生成

- 与Stable Diffusion相当的图像质量

- 简单高效的训练过程

- 利用文本调整的反流产生直线概率流

- 从直线流中迁移学习以实现一步生成

通过直线流和迁移学习,InstaFlow实现了快速生成高质量图像的目标,是新一代文本到图像生成模型的杰出代表。

举报

  • 相关推荐
  • AI日报:豆包披露付费订阅方案;OpenAI发布GPT-5.5Instant;苹果手机支持第三方AI模型

    今日AI领域动态:豆包推出月费68-500元三档付费订阅,推进商业化;OpenAI发布GPT-5.5 Instant,取代5.3成为ChatGPT默认模型;苹果iOS 27或支持第三方AI模型,打破封闭生态;淘宝“答题免单”上线,首次加入AI试穿玩法;魔形智能完成数亿元Pre-A轮融资,布局Token基础设施;谷歌神秘项目“Remy”曝光,打造24小时AI助教;谷歌推出Gemini Ultra Lite新订阅服务,填补中高端市场空白;ChatGPT上线广告主平台,AI商业化迎来分水岭。

  • 单月商单近九成,陪读的“子涵妈妈们”占领vlog圈

    ​不知何时起,陪读妈妈们席卷了vlog赛道。 她们大多是30岁+的年轻妈妈,有个上小学的儿子或女儿,主打以第一视角记录陪读的日常vlog。 这批vlog往往有着相似的开头,妈妈们先是起床抬表看时间,再走出房门,接着走进厨房,开火准备早餐。 一整套动作行云流水,一看时长才过去3秒,麻利劲儿呼之欲出。

  • 字节迫近Meta,但Reels也追上了TikTok

    张一鸣的“一生之敌”,注定是扎克伯格和Meta。 此前,围绕TikTok,扎克伯格施展多重手段,给张一鸣和字节跳动带来了不小的麻烦。如今,TikTok的纷纷扰扰尘埃落定,但双方的暗战依然没有止歇。 从估值上看,字节已经追了上来。 2020年前后,字节的估值首次突破1000亿美元,同期Meta市值高达8000亿美元,相当于8个字节。六年后,字节估值升至6000亿美元,Meta市值为1.7万亿美

  • 从花海到古镇:佳能PowerShot V1重新定义新手Vlog相机

    佳能PowerShot V1专为新手创作者设计,重仅426克,轻便易携,搭载三重协同防抖技术,确保登山徒步时画面稳定。它具备优秀色彩科学和5级可调平滑皮肤模式,直出即可获得通透自然的人像效果。内置三个高品质麦克风和先进降噪技术,能清晰录制音乐节现场声音。1.4英寸CMOS传感器和5.7K超采样4K视频,还原花海细节。高级A+智能模式自动优化参数,让新手轻松拍出春日大片。

  • 浪漫礼物送给TA 三星Galaxy A57 5G以创新科技传递爱意

    520表白日,三星Galaxy A57 5G手机作为贴心礼物推荐。该机以纤薄时尚设计、IP68防水、耐用金属边框和康宁大猩猩玻璃彰显品质。配备5000万像素光学防抖主摄等三摄系统,支持AI优化人像和夜景拍摄。搭载八核处理器、6.7英寸Super AMOLED+屏幕和Vision Booster技术,性能强劲。AI功能包括语音转文字、多截图、Bixby播客等,并承诺6年安全更新,是记录爱情瞬间的理想伴侣。

  • 告别CityWalk,这届年轻人又迷上ColorWalk

    ​春天来了,这届年轻人又整新活儿了。 不是特种兵式旅行,也不是飞去某个“网红”城市打卡,玩法简单质朴:出门前在心里选定一个颜色,然后就这么走出去,走进日常街道,不设目的地,只寻找与这个颜色有关的一切。 一朵粉樱、一辆蓝单车、一块橙色招牌,甚至一个红色垃圾桶,都算“找到了”。 这就是席卷社交平台的ColorWalk。小红书上相关话题浏览量突破4.6亿次�

  • 两月涨粉近500万,这届网友为何追更县城高中生vlog

    ​不到两个月全网涨粉近500万,一位看似普通的高中生博主“笑笑易”火了。 其他高中生vlog都在卷学习、卷创意,力证自己是新时代不可多得的高质量人类,但“笑笑易”只是将镜头对准枯燥单调的高中生活,便收获了一大批关注。

  • 百度GenFlow4.0正式发布:把龙虾、剪辑Agent、Office三件套全塞进网盘

    百度文库与网盘联合发布通用智能体GenFlow4.0,全面升级Office Agent,用户可在网盘内一键部署OpenClaw,将文库网盘变成跨端AI工作台。新版本打通办公三件套,支持自然语言指令并行调用PPT、Excel、Word三个子智能体,实现跨模态内容理解与元素级自由编辑。GenFlow4.0深度兼容OpenClaw框架,支持零门槛一键部署,不占本地内存,手机端可发起任务、电脑端执行。此外,还提供预设Skills并支持接入开源生态。自去年4月上线以来,一年迭代4个版本,月活用户突破1亿,月任务交付量达2亿次。

  • 2026年五款热门Vlog相机推荐:从佳能到索尼,谁的视频拍摄更顺手?

    随着短视频和Vlog成为主流表达方式,选择合适视频相机愈发重要。本文整理了五款关注度较高的机型:佳能R50V(轻巧机身,支持6K超采样4K、Log格式和10-bit色深,专为视频创作设计)、索尼ZV-E10(紧凑APS-C画幅,配备侧翻屏和指向性麦克风)、松下G100(M4/3画幅,内置三麦克风实现环绕声,音频采集出色)、尼康Z30(APS-C画幅,取消取景器,支持4K超采样和眼部自动对焦)、大疆Osmo Pocket 3(一体化手持云台相机,机械增稳,支持4K 120P慢动作)。这些相机各有侧重,从专业规格到便携易用,满足不同视频创作需求。

  • 量子赋能脱链革新:微云全息(NASDAQ: HOLO)量子链下交互系统提升区块链效能

    微云全息(HOLO)研发的量子链下交互系统,通过量子侧链、量子态通道和Q-OffChain方案,大幅提升区块链TPS、降低费用,解决网络拥堵。该系统支持金融微支付、供应链溯源、游戏资产交易等场景,降低使用门槛,推动区块链规模化商用。未来将优化量子安全协议与跨链通信,迈向高效、安全、普惠的新阶段。

今日大家都在搜的词: