首页 > 业界 > 关键词  > MobileDiffusion最新资讯  > 正文

只需0.5秒!MobileDiffusion:在手机设备上就能实现快速文本生成图像

2024-02-01 09:42 · 稿源:站长之家

**划重点:**

1. 🚀 MobileDiffusion 是一种专为移动设备设计的高效潜在扩散模型,可在半秒内生成高质量512x512图像。

2. 🧠 通过优化模型架构,包括Diffusion UNet和图像解码器,MobileDiffusion展现了在计算效率上的出色表现。

3. 🌐 该技术有望在移动设备上推动快速图像生成体验,拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。

站长之家(ChinaZ.com)2月1日 消息:在谷歌一项项名为“MobileDiffusion”的研究中,Google的研究员介绍了一种新颖的移动设备上文本生成图像的方法。传统的文本生成图像模型通常需要庞大的参数和强大的计算能力,而MobileDiffusion则专为移动设备设计,具有在半秒内生成高质量图像的潜力。

据了解,文本生成图像模型的相对低效性主要源于两个主要挑战。首先,扩散模型的固有设计要求通过迭代去噪生成图像,需要对模型进行多次评估。其次,模型架构的复杂性导致参数数量庞大,计算成本高昂。

虽然先前的研究主要集中在减少函数评估次数上,但移动设备上即使进行少量评估步骤也可能很慢。因此,MobileDiffusion致力于解决这些问题,通过优化模型架构和采用DiffusionGAN实现一步采样,从而在移动设备上实现快速文本生成图像。

image.png

MobileDiffusion的设计遵循潜在扩散模型,包括三个组件:文本编码器、扩散UNet和图像解码器。

  • 文本编码器使用适用于移动设备的小型模型CLIP-ViT/L14。

  • 对于扩散UNet,研究人员深入研究了Transformer块和卷积块的效率,并采用UViT架构来提高计算效率。与此同时,他们通过在UNet的深层段使用轻量级可分离卷积层,优化了卷积块的性能。

    image.png

    一些扩散 UNet 的比较。

  • 图像解码器方面,他们训练了一个变分自编码器(VAE),通过修剪原始的宽度和深度设计了轻量级解码器架构。

    image.png

    VAE 重建。MobileDiffusion的 VAE 解码器具有比 SD(Stable Diffusion)更好的视觉质量。

为了进一步提高效率,研究人员采用了DiffusionGAN混合模型来实现一步采样。通过使用预训练的扩散UNet初始化生成器和判别器,简化了训练过程。该模型通过在少于10,000次迭代内收敛的微调过程,实现了文本生成图像的高效训练。

image.png

DiffusionGAN 微调的图示。

实验结果显示,MobileDiffusion在iOS和Android设备上表现出色,能够在半秒内生成512x512高质量图像。这种快速的图像生成速度为移动设备上的各种有趣用例提供了潜在可能性。研究人员表示,MobileDiffusion的高效性和小模型尺寸使其成为移动部署的理想选择,有望在用户在输入文本提示时提供快速的图像生成体验。

下图展示了 MobileDiffusion 与 DiffusionGAN 一步采样生成的示例图像。模型其相对较小的模型尺寸(仅 520M 参数)使其特别适合移动部署,MobileDiffusion 可以为各个领域生成高质量的多样化图像。

image.png

用不同的运行时优化器测量了 MobileDiffusion 在 iOS 和 Android 设备上的性能。下面报告了延迟数字。可以看到MobileDiffusion非常高效,可以在半秒内运行生成512x512的图像。这种速度可能会在移动设备上实现许多有趣的用例。

image.png

MobileDiffusion的研究展示了在移动设备上实现快速文本生成图像的潜在前景,并承诺在应用该技术时遵循Google的负责任人工智能实践。

官方博客:https://blog.research.google/2024/01/mobilediffusion-rapid-text-to-image.html

论文网址:https://arxiv.org/abs/2311.16567

产品入口:https://top.aibase.com/tool/mobilediffusion

举报

  • 相关推荐
  • DK Mobile Reborn上线!注册账号教程+下载教程+官网地址分享

    MMORPG新游《DKMobile Reborn》 4 月 18 日上线,还是我们熟悉的泡菜三端互通游戏,这种游戏最好的地方就在于随时随地都能玩,而且游戏还支持"离线战斗模式",也是就玩家无需启动游戏也能延续自动战斗。首发五个职业,剑盾,狂战,射手,法师,奶妈。新游大家还是值得关注一下,尤其是搬砖选手,这个很有戏。今天给大家带来注册账号教程+下载教程+官网地址分享。DK Mobile Re

  • 苹果Vision Air曝光:采用钛金属 设备更轻

    快科技4月17日消息,当前Vision Pro 256G版本售价为29999元起,设备重量为600克至650克,根据遮光罩和头带配置不同可能有所差异,其单独的电池重量为353克,不少线下体验者表示,该头显的重量影响其体验舒适度。苹果也意识到了这个问题,其下一代头显的研发重点是减重”,有博主在社交平台上爆料称,苹果正在研发全新头显Vision Air,其特点是采用轻量化设计,同时带来午夜�

  • 森赛睿科技亮相 VisionCon 2025:视觉 AI 生态链赋能工业视觉检测快速落地,引领智造升级新范式

    雅时国际商讯主办的“VisionCon视界系统设计技术大会”在武汉光谷盛大召开,聚焦工业视觉人工智能领域,展示其在视觉AI生态构建上的战略部署与创新成果,推动“AI+制造”深度融合,为全球工业视觉行业提供可复刻的智能解决方案,突破传统视觉系统的科技壁垒,打造“云-边-端”协同架构。

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 低端显卡登上AI的大船!6GB显存就能生成高质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�

  • 苹果Siri团队大换血!Vision Pro班底全面上马

    苹果正对Siri团队进行大规模重组,由新任工程主管Mike Rockwell主导改革。Rockwell从Vision Pro项目调来核心成员,重组了语音、理解、性能等关键团队。Vision Pro项目副手Ranjit Desai将负责Siri主要工程事务,Olivier Gutknecht接手用户体验设计。此次重组旨在简化开发流程,提升Siri功能。苹果AI/ML团队此前因管理混乱被员工戏称为"AI/less"。业内建议苹果应考虑重塑Siri品牌形象,推出全新数字助手以摆脱负面评价。

  • 网友体验REDMI K80一碰传功能:手机PC互联搞定

    有博主发视频分享了REDMIK80的一秒碰传功能,仅需将K80碰一碰REDMIBook触控板,电脑上就能显示手机桌面,可以使用手机内置应用能拖拽文件。这是小米妙享新增的NFC一碰秒传功能,RedmiBook可与小米或REDMI手机实现智能互联,大幅提升办公效率。值得注意的是,iPhone、iPad、MacBook安装小米互联服务,可实现小米笔记本与苹果设备的文件互传,传照片、传文件一拖就能完成。

  • 苹果要 all in 智能眼镜?Vision Pro 2 也已准备就绪

    苹果已着手开发轻便且低价的 AR 智能眼镜,同时也在开发第二代头显设备 Vision Pro。

  • vivo Vision混合现实头显宣布下半年发布

    vivo宣布其MR设备vivo Vision将于今年下半年正式发布,引发市场广泛关注。该设备可能与vivo X300系列手机同步上市,形成产品矩阵效应。Vision头显设计借鉴夏普Vision Pro风格,采用曲面抛光镜片,集成了多颗摄像头,但具体技术参数尚未公开。此布局被视为vivo战略转型的关键一步,旨在通过MR技术强化实时空间计算能力,为基础的未来机器人物联网应用奠定基础。vivo计划打造一套视觉感知系统,重点提升机器人的视觉捕捉、处理、理解、空间建模及边缘计算等五大维度的智能化水平。这一战略定位依赖于依图科技在AI大模型与混合现实技术领域的积累,vivo加速布局机器人赛道的相关落地措施已进入实质推进阶段。伴随Vision头显的发布,行业或将迎来新一轮技术竞争。这被寄予厚望的设备能否在空间计算领域实现突破,仍需等待市场验证。