Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

2023-07-03 16:12 · 稿源：站长之家

站长之家(ChinaZ.com) 7月3日消息:Diffusion 模型近年来在文本到图像生成方面得到广泛应用，并取得了显著的成功，从而在图像质量、推理性能和创造性范围方面实现了重大改进。然而，在难以用文字明确定义的条件下，有效的生成管理仍然是一个挑战。

谷歌，google

由谷歌研究人员开发的 MediaPipe Diffusion 插件使得用户可以在设备上执行文本到图像的生成，并进行用户控制。在这项研究中，谷歌延伸了之前关于设备上大型生成模型的 GPU 推理的工作，提出了低成本的可编程文本到图像创建解决方案，可以集成到现有的 Diffusion 模型及其 LoRA 变体中。

Diffusion 模型中模拟了迭代去噪的图像生成过程。Diffusion 模型的每一次迭代都以受噪声污染的图像开始，并以目标概念的图像结束。通过文本提示的语言理解极大地增强了图像生成过程。文本嵌入通过交叉注意力层与文本到图像生成模型关联起来。然而，物体的位置和姿态等细节可能更难以通过文本提示传达。研究人员通过额外的模型将条件图像中的控制信息引入到 Diffusion 中。

Plug-and-Play、ControlNet 和 T2I Adapter 方法经常用于生成受控的文本到图像输出。Plug-and-Play 使用 Diffusion 模型的副本（Stable Diffusion1.5 版本的 860M 参数）和广泛使用的去噪 Diffusion 隐式模型（DDIM）反演方法来从输入图像中推导出初始噪声输入。

通过自注意力从复制的 Diffusion 中提取空间特征，并使用 Plug-and-Play 将其注入到文本到图像 Diffusion 中。ControlNet 构建了 Diffusion 模型编码器的可训练副本，并通过一个带有零初始化参数的卷积层连接到编码条件信息，然后传递给解码器层。不幸的是，这导致了模型的显著增大，Stable Diffusion1.5 版本的参数约为 4.5 亿个，相当于 Diffusion 模型本身的一半。T2I Adapter 在较小的网络（77M 参数）下实现了可比较的受控生成结果。条件图像是 T2I Adapter 的唯一输入，其结果被用于所有后续的 Diffusion 周期。然而，这种适配器样式不适用于移动设备。

MediaPipe Diffusion 插件是谷歌开发的一个独立网络，旨在使条件生成变得高效、灵活和可扩展。

作为一种便携式的设备上文本到图像创建范式，MediaPipe Diffusion 插件可以免费下载使用。它接收一个条件图像，并通过多尺度特征提取将特征添加到 Diffusion 模型的编码器中的适当尺度上。

当与文本到图像 Diffusion 模型结合使用时，插件模型将一个条件信号添加到图像生成过程中。谷歌希望插件网络只有 600 万个参数，使其成为一个相对简单的模型。

MediaPipe：https://developers.google.com/mediapipe

（举报）

相关推荐

关键词：

“猝死风险AI筛查系统”亮相“2025人工智能+大会”，引领“AI+大健康”新浪潮

在2025人工智能+大会“AI+大健康”论坛上，沃民高科发布“猝死风险AI筛查系统”。该系统通过30秒头部视频AI分析，实现无创快速筛查，为猝死预防提供新方案。中国是全球心源性猝死人数最多的国家，年轻化趋势明显。该系统部署简便，1分钟内完成评估，适合大规模普筛，已获行业认可，包括1.495亿元服务采购。沃民高科将持续深耕AI健康监测技术，助力全球健康事业发展。

AI+大健康猝死风险筛查康养数智化
跨境支付的未来：人工智能、嵌入式金融和即时结算

本文系统分析了人工智能、嵌入式金融与即时结算三大技术趋势如何重构跨境支付体系。人工智能通过智能填单、动态风控和预测性维护显著提升支付效率与安全性；嵌入式金融将支付功能无缝融入电商平台与供应链，实现“无跳转支付”；即时结算技术将跨境支付时间从数日缩短至秒级，并优化现金流。三大技术深度融合形成协同效应，推动跨境支付向更智能、高效、无缝�

全球支付生态数字化浪潮跨境支付体系
人工智能落地“最后一公里”，戴尔工作站助力AI应用提速

AI应用落地面临“最后一公里”部署难题：传统流程繁琐耗时，从模型开发到上线需数周。英特尔携手戴尔与零克云打造“工作站-AI PC-云端”协同生态，通过本地工作站进行小规模测试验证，降低试错成本与数据泄露风险，再通过“一键部署”快速扩展至云端规模化落地。这种“先本地验证、后云端放大”的路径显著提升开发效率，释放团队创造力，让有价值的AI想法快速照进现实。

AI部署模型上线服务器配置
简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案，标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑，该模型围绕用户兴趣成长周期设计，提供个性化学习支持：可为未明确兴趣方向的用户智能推荐内容，为入门用户规划学习路径，为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖，并通过社群互动增强学习动力。公司未来将持续优化模型能力，联合行业伙伴构建完整培养体系，推动兴趣教育向个性化、高质量方向发展。

简智AI大模型生成式人工智能兴趣教育
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
遇到平板电池问题，试试联想想帮帮AI服务智能体的AI智修功能

联想推出“想帮帮AI服务智能体”，通过AI智修功能解决手机/平板常见故障。用户只需在APP中输入问题，AI即可自动检测电池耗电快、断触、游戏卡顿等异常，结合知识库智能诊断并执行修复。系统具备主动预警、自动修复能力，严重故障时可协助预约售后。该服务覆盖设备全生命周期，提供快速定位、即时处理的一站式解决方案，让用户告别手动排查烦恼。

手机电池耗电快打游戏断触平板断触

今日大家都在搜的词：

热文

3 天
7天

Google AI 推出 MediaPipe Diffusion 插件：可在设备上实现可控的文本到图像生成

“猝死风险AI筛查系统”亮相“2025人工智能+大会”，引领“AI+大健康”新浪潮

跨境支付的未来：人工智能、嵌入式金融和即时结算

人工智能落地“最后一公里”，戴尔工作站助力AI应用提速

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

人工智能巨头OpenAI拟上市估值或高达1万亿美元

遇到平板电池问题，试试联想想帮帮AI服务智能体的AI智修功能

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为Mate 80系列首发户外探索模式实现14天极限续航

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

快手发布2025年第三季度财报：可灵AI营业收入超3亿元

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为Mate 80系列首发户外探索模式实现14天极限续航

荣耀500系列官宣将于11月24日发布

站长商机