首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌发布 MediaPipe Diffusion 插件 推理效率比ControlNet高20倍以上

2023-07-12 17:27 · 稿源:站长之家

站长之家(ChinaZ.com)7月12日 消息:谷歌最近发布了 MediaPipe Diffusion 插件,这是一个可在移动设备上运行的低成本可控文本到图像生成解决方案。该插件可以提取条件图像中的特征,并将其注入到扩散模型的编码器中,以实现对图像生成过程的控制。

与 ControlNet 相比,MediaPipe Diffusion 插件的推理效率提高了20+ 倍,在 v100上运行甚至可以提速高达100倍。

扩散模型是一种在文本到图像生成中取得成功的方法,它通过迭代去噪的方式逐步生成目标概念的图像。通过将文本提示作为条件,可以大大提高图像生成的效果。然而,仅凭文本来控制图像的生成往往难以获得理想的结果,例如具体的人物姿势和面部表情。

QQ截图20230712172639.jpg

为了解决这个问题,谷歌研究人员设计了 MediaPipe Diffusion 插件,该插件是一个轻量级的模型,具有600万参数,使用 MobileNetv2中的深度卷积和反向瓶颈实现快速推理。

插件可以连接到预训练的文本到图像生成模型中,并提供额外的条件信号,从而实现对图像生成过程的控制。

QQ截图20230712172658.jpg

研究人员还开发了基于扩散的文本到图像生成模型与不同插件的应用示例,包括人脸标记、全身标记、深度图和 Canny 边缘。通过调节插件的参数,可以生成不同风格和特征的图像。

对于 face landmark 插件,研究人员进行了定量评估,并与 ControlNet 进行了比较。实验结果表明,插件生成的样本质量比基础模型好得多,而推理时间只增加了2.6%。此外,在移动设备上的性能测试中,MediaPipe 插件表现出明显的优势。

总之,谷歌的 MediaPipe Diffusion 插件是一个可在移动设备上运行的图像生成控制模型,可以提高推理效率并实现对图像生成过程的精确控制。这将为移动端应用提供更灵活和定制化的生成式 AI 能力。

举报

  • 相关推荐
  • 从TradingView到AiCoin,WEEX用户尽享专业分析与高效交易

    5月28日,加密货币交易平台WEEX与行情分析平台AiCoin达成战略合作,实现行情数据与K线图的全面对接。此前WEEX已完成与TradingView的集成,为用户提供专业图表分析工具。WEEX成立于2018年,现支持15种语言,服务全球130多个国家超620万用户,合约交易量排名全球前十。平台设立1000BTC投资者保护基金,定期公布储备金证明(PoR)。此次合作将借助AiCoin的专业数据和分析工具,提升用户�

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • Reddit 起诉 Anthropic,称其未支付AI训练数据费用

    OpenAI 首席执行官山姆·奥特曼(Sam Altman)持有 Reddit 8.7% 的股份,是该公司第三大股东,并曾是 Reddit 董事会成员……

  • 谷歌“坟场”再添一员:将于 12 月关闭 Instant Apps!

    2017 年首次推出的 Instant Apps 功能将于 2025 年 12 月正式退役。届时,用户只能回归“老老实实用网页”的生活方式了……

  • PCB阻焊桥脱落与LDI工艺

    本文探讨了PCB设计中阻焊桥的作用与工艺要求。阻焊桥用于防止SMD焊盘间焊料流动导致短路,其宽度设计需考虑芯片引脚间距和工厂工艺能力。文章指出,传统CCD曝光技术存在对位误差,而LDI激光直接成像技术精度更高。以STM32F103C8T6芯片为例,其0.2mm引脚间距对阻焊桥设计提出挑战。建议硬件工程师需了解板厂工艺水平,对引脚间距小于0.2mm的芯片应减小阻焊扩展宽度或更换封装类型。文中还展示了阻焊桥脱落导致连锡的实例图片,强调设计时需综合考虑芯片参数和制造工艺。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • 微星2025 COMPUTEX电脑展发布ITX主板及联名主机等系列新品!

    2025台北国际电脑展上,微星科技发布多款创新产品:1. AI虚拟助手MIA,采用大语言模型和3D交互技术;2. 全新主板系列,包括旗舰级MEG X870E ACE战神主板,支持Wi-Fi 7和USB 40Gbps;3. Mini-ITX规格主板MPG X870I EDGE TI WIFI;4. 背插式设计MAG X870E TOMAHAWK战斧导弹主板;5. 超频专用B850MPOWER主板;6. 旗舰机箱MEG MAESTRO 900系列,采用四面玻璃展示设计;7. 新一代水冷散热器MEG CORELIQUID E13系列;8. �

  • Mediatom快应用聚合变现解决方案即将上线,敬请期待!

    Mediatom将全面支持快应用变现服务,为开发者提供高效灵活的解决方案。该平台通过动态分层优化和全竞价体系,帮助开发者对接多平台广告资源,最大化流量价值,预计可提升变现收益30%以上。其四大核心功能包括:一键接入主流广告平台、智能匹配最优广告形式、全样式素材支持及实时数据追踪。平台已服务5000+开发者,覆盖2万+款App,累计为开发者创收数十亿元。作为数字广告技术标杆,Mediatom凭借十年技术沉淀和安全可靠的聚合SDK平台,持续优化开发者变现效率。

  • 铭瑄 GeForce RTX 50 系列显卡重磅出击COMPUTEX 2025!

    COMPUTEX 2025第三天,铭瑄科技展台热度不减,重点展示了GeForce RTX 50系列显卡新品。该系列基于NVIDIA Blackwell架构,搭载第五代Tensor Core和第四代RT Core,配备16GB GDDR7显存,带宽达960GB/s,性能较上代提升34%。现场展出了RTX 5080 MGG OC16G等多款产品,其中iCraft系列采用全新珍珠白渐变设计,支持ARGB灯效同步,兼具科技美学。同时展出的还有半高尺寸RTX 5060 LP 8G和MGG水冷概念产品,后者�