首页 > 业界 > 关键词  > MediaPipe最新资讯  > 正文

谷歌研究发布MediaPipe FaceStylizer 轻松生成各种风格头像

2023-09-18 18:02 · 稿源:站长之家

文章概要:

1. 谷歌研究推出了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于在少量镜头情况下进行人脸风格化。这项技术适用于短视频、虚拟现实和游戏等领域,具有轻量级和高质量的特点。

2. 该技术使用了生成对抗网络(GAN)方法,将图像转换为潜在编码,通过合成网络和辅助头来生成高质量的面部图像。同时,从教师StyleGAN模型中提炼出学生生成器,以保持模型的轻量化。

3. MediaPipe FaceStylizer可为用户提供开源访问,允许微调生成器以学习不同的风格,并将生成的模型部署到设备上的面部风格化应用程序中。

站长之家(ChinaZ.com)9月18日 消息:近年来,随着增强现实(AR)技术的崛起,研究人员和消费者对结合AR的智能手机应用表现出了日益增长的兴趣。这种技术允许用户实时生成和修改面部特征,用于短视频、虚拟现实(VR)和游戏等应用。在这方面,基于生成对抗网络(GAN)方法的人脸生成和编辑模型备受欢迎,因为它们不仅轻巧,而且能够保持卓越的图像质量。然而,大多数传统的GAN模型在计算复杂性方面存在严重限制,而且需要大量的训练数据集,同时合乎道德地使用这些模型也是一个重要问题。

image.png

为了应对这些挑战,谷歌研究人员开发了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于少量镜头脸部风格化。这个模型利用了GAN反转技术,将图像转换为潜在编码,然后通过一个适合移动设备的合成网络生成从粗到细粒度的高质量图像。此外,他们还从教师StyleGAN模型中提炼出学生生成器,通过巧妙设计损失函数,并将其与常见的GAN损失函数相结合,创造出一个轻量级模型,能够保持良好的生成质量。MediaPipe还提供了对这一解决方案的开源访问,使用户能够微调生成器,以从一张或多张照片中学习风格。

image.png

该技术的关键组成部分是BlazeStyleGAN模型,它包括一个面部生成器和一个面部编码器,用于生成和优化符合特定美学要求的面部。通过使用MobileNet V2核心,面部编码器将输入照片与面部生成器生成的面部关联起来。研究人员还构建了一个面部风格化流程,使用GAN反转编码器和有效的面部生成器模型,用户可以通过几个样本来微调模型,以适应不同的风格需求。

为了训练BlazeStyleGAN,谷歌团队采用了知识蒸馏技术,使用了广泛使用的StyleGAN2作为训练模型。此外,他们引入了多尺度感知损失,以改善图像生成质量。

最终,BlazeStyleGAN能够在移动设备上以实时速度运行,并且在视觉质量上与教师模型非常接近。研究团队还指出,在某些情况下,BlazeStyleGAN可以通过减少教师模型产生的伪影来提高视觉质量。该技术在移动设备上的性能表现也令人印象深刻,可以在绝大多数高端智能手机上实时运行。

谷歌研究团队的MediaPipe FaceStylizer技术为少镜头脸部风格化提供了一种高效的解决方案,使用户能够在移动设备上实时生成高质量的面部图像。这一技术的发布标志着在设备内部生成模型方面的重要进展,为未来的应用和探索提供了更多可能性。

项目网址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html

举报

  • 相关推荐
  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • 对话逗逗AI:猛涨千万用户背后,不抢屏幕时间,不做超级app,也不止于游戏了

    ​当你在游戏里卡关半小时,烦躁地想切出去搜攻略;或者在开放世界里孤独“跑图”,无聊到只能听歌的时候,如果这屏幕上突然冒出一个“小可爱”,一边帮你找路,一边陪你吐槽,感觉会如何? 这就是逗逗AI正在做的事。它不是一个需要你切换点开的APP,而是一个以虚拟形象或悬浮球形式,能看到你的游戏界面,听到你的声音,和你随时互动的AI玩伴。 我们来看一个顶

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • 会玩App携手顶流IP奶龙,打造萌趣社交新体验

    会玩App与国民IP奶龙展开为期三周深度合作,推出横跨国庆中秋的特别活动。通过上线“奶龙岛”虚拟场景、限定饰品及分阶段玩法,结合“治愈相伴”理念与年轻群体精准触达,吸引大量用户参与。此次合作验证了“IP+社交”模式潜力,平台正将热点活动沉淀为可持续品牌认知,逐步形成差异化优势。

  • 更新功能、内测新App,抖音快手再战社交

    ​抖音和快手又一次向社交领域发起进攻。 近日,抖音、快手在站内密集更新了“日常”“说说”等一系列社交新功能;此外,抖音还被曝正在内测全新的社交App。 当流量增长触及天花板,内容的稀缺性逐渐变弱,社交似乎成为了短视频巨头的“新叙事”。 它们为何始终对“社交”念念不忘?这究竟是构筑护城河的必然选择,还是一场注定艰难的豪赌?

  • 小米推出短剧App围观短剧:主打无广告免费看

    小米正式进军短剧领域,推出免费App“围观测短剧”,主打无广告、海量免费内容,覆盖都市、逆袭等20余种题材。该应用由小米关联公司开发,功能简洁支持手势切换。此前小米旗下Redmi品牌已试水短剧市场,推出《时空合伙人》并获好评。此次布局彰显小米在短剧领域的雄心,未来将为用户提供更多优质内容。

  • 等等党入手Apple产品最佳时机来了 iPad Pro京东11.11低至8299元起

    京东11.11全面开启,Apple产品自营旗舰店开启降价模式。iPhone 17 Pro系列享300元惊喜券、以旧换新补贴500元起,每日10点抢2100元以旧换新券;iPhone 16系列国补后到手价低至4399元起。iPad、MacBook、AirPods、Apple Watch等全线产品也有专属优惠,如iPad Pro 11英寸M5版享400元券,MacBook Air M2版直降3200元。打开京东搜索“苹果惊喜券”即可直达活动,现货发售,优惠诚意十足。

  • Soul App Q3生态安全报告:以科技力量守护真实社交

    Soul App发布《2025年第三季度生态安全报告》,聚焦社交平台安全治理。平台通过“技术+制度+教育”三维体系,在AI风控、反欺诈、未成年人保护及违规内容治理等领域取得进展:AI反欺诈模型误伤率降80%,高风险人设识别覆盖率达70%;处置违规账号30.6万个,日均拦截违规内容超2.6万条;强化未成年人保护,自动切换青少年模式。同时推进社区共治,超7.8万用户参与内容共建,形成安全生态良性循环。

  • 知乎崩了上热搜:网页端完全无法进入 App端也未能幸免

    10月17日上午,知乎遭遇大规模服务故障,全端瘫痪。网页端无法访问,App端问答详情、小说阅读及搜索功能失效,用户登录状态异常,被强制显示为匿名。大量用户误以为是设备或网络问题,尝试重启、重装应用等措施无效。故障引发全网关注,微博话题“知乎崩了”单日讨论量激增,成为网络热点。此次故障严重影响用户使用体验,暴露平台服务稳定性问题。

今日大家都在搜的词: