谷歌发布 MediaPipe Diffusion 插件推理效率比ControlNet高20倍以上

2023-07-12 17:27 · 稿源：站长之家

站长之家（ChinaZ.com）7月12日消息:谷歌最近发布了 MediaPipe Diffusion 插件，这是一个可在移动设备上运行的低成本可控文本到图像生成解决方案。该插件可以提取条件图像中的特征，并将其注入到扩散模型的编码器中，以实现对图像生成过程的控制。

与 ControlNet 相比，MediaPipe Diffusion 插件的推理效率提高了20+ 倍，在 v100上运行甚至可以提速高达100倍。

扩散模型是一种在文本到图像生成中取得成功的方法，它通过迭代去噪的方式逐步生成目标概念的图像。通过将文本提示作为条件，可以大大提高图像生成的效果。然而，仅凭文本来控制图像的生成往往难以获得理想的结果，例如具体的人物姿势和面部表情。

QQ截图20230712172639.jpg

为了解决这个问题，谷歌研究人员设计了 MediaPipe Diffusion 插件，该插件是一个轻量级的模型，具有600万参数，使用 MobileNetv2中的深度卷积和反向瓶颈实现快速推理。

插件可以连接到预训练的文本到图像生成模型中，并提供额外的条件信号，从而实现对图像生成过程的控制。

QQ截图20230712172658.jpg

研究人员还开发了基于扩散的文本到图像生成模型与不同插件的应用示例，包括人脸标记、全身标记、深度图和 Canny 边缘。通过调节插件的参数，可以生成不同风格和特征的图像。

对于 face landmark 插件，研究人员进行了定量评估，并与 ControlNet 进行了比较。实验结果表明，插件生成的样本质量比基础模型好得多，而推理时间只增加了2.6%。此外，在移动设备上的性能测试中，MediaPipe 插件表现出明显的优势。

总之，谷歌的 MediaPipe Diffusion 插件是一个可在移动设备上运行的图像生成控制模型，可以提高推理效率并实现对图像生成过程的精确控制。这将为移动端应用提供更灵活和定制化的生成式 AI 能力。

（举报）

相关推荐

关键词：

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
AI享生活一连即发三星AI神冰箱带来智慧厨居新体验

三星AI神冰箱通过SmartThings APP实现全屋智能互联，用户可远程管理食材、获取菜谱推荐、同步追剧音乐。搭载AI大屏智能识别食材种类并自动更新清单，支持节电模式与用电量查询。冰箱从食材管理到烹饪灵感提供全方位智慧体验，成为智能家居的核心环节，让厨房生活更便捷高效。

智慧家居远程控制食材管理
荐AI创作平台酣战，受伤的却是真人创作者？

国内的AI创作平台又添一名猛将:阿里巴巴AI旗舰应用夸克近日发布全新AI创作平台“造点”。平台集成AI生图与AI生视频两项核心能力，率先接入通义万相Wan2.5，成为国内最先支持音画同步视频生成的平台之一。至此，从腾讯的元宝、字节的豆包和即梦，到快手的可灵，再到如今的造点，AI创作已然成为未来的一大趋势，而平台之间的酣战也愈演愈烈。与此同时，内容创作者却

AI创作平台夸克造点音画同步视频生成
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
品牌被AI主动提及 = 流量新入口? 11 步让你的品牌在AI答案中露脸（含工具推荐）

在AI问答时代，用户习惯直接提问而非浏览网页，品牌若未出现在AI回答中将错失曝光机会。文章提出生成式引擎优化（GEO）概念，强调提升品牌在AI回答中的提及率是关键。核心策略包括：创建结构化、专业可信的内容；借助权威来源增强引用；优化网页技术确保可抓取；持续更新数据保持时效性。推荐使用AIBase工具量化监测提及率，通过11步实操策略系统性提升品牌在AI生态中的可见度与影响力。

文章搜索核心标签品牌提及
AI 搜索时代，SEO该何去何从?一文解密“AI 搜索对 SEO 的深远影响”

AI搜索时代，传统SEO面临三大变革：用户行为从点击链接转向AI直接生成答案，搜索入口从索引排名转向生成式引用，内容机制更注重权威性与结构化数据。SEO并未消亡，而是进化——需聚焦可引用内容、结构化优化、多平台布局。推荐使用AIBase GEO工具监测被AI引擎引用情况，核心目标从"排名第一"转向"被AI优先选中"。

AI搜索 SEO影响流量结构
为什么飞书多维表格成为了品牌进入AI时代的理想切口

今年的双11已经进入正赛阶段，除了往年大家都会关心的优惠玩法、销量增长，AI在电商领域的大规模落地应用也成为一个焦点议题。一个最直观的感受是，电商平台在这个双11开始大规模地推介自家的AI购物功能，向消费者展示更具创新性的购物体验，给到他们尝鲜机会。有用户和朋友体验过之后，在网上给出了「有用」的评价。虽然普及度依然有限，但AI导购走向大众已经�

AI购物双11 电商平台
OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas

今日大家都在搜的词：

热文

3 天
7天

谷歌发布 MediaPipe Diffusion 插件推理效率比ControlNet高20倍以上

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

AI享生活一连即发三星AI神冰箱带来智慧厨居新体验

荐AI创作平台酣战，受伤的却是真人创作者？

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

品牌被AI主动提及 = 流量新入口? 11 步让你的品牌在AI答案中露脸（含工具推荐）

AI 搜索时代，SEO该何去何从?一文解密“AI 搜索对 SEO 的深远影响”

为什么飞书多维表格成为了品牌进入AI时代的理想切口

OpenAI也来了，巨头为何决战AI浏览器？

今日大家都在搜的词：

热文

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

REDMI K90标准版12+512GB降价300元小米回应：可退差价

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

真我GT8发布：售价2899元起骁龙8至尊版双芯

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机

谷歌发布 MediaPipe Diffusion 插件 推理效率比ControlNet高20倍以上

今日大家都在搜的词：

热文

站长商机

谷歌发布 MediaPipe Diffusion 插件推理效率比ControlNet高20倍以上