首页 > 业界 > 关键词  > MediaPipe最新资讯  > 正文

谷歌研究发布MediaPipe FaceStylizer 轻松生成各种风格头像

2023-09-18 18:02 · 稿源:站长之家

文章概要:

1. 谷歌研究推出了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于在少量镜头情况下进行人脸风格化。这项技术适用于短视频、虚拟现实和游戏等领域,具有轻量级和高质量的特点。

2. 该技术使用了生成对抗网络(GAN)方法,将图像转换为潜在编码,通过合成网络和辅助头来生成高质量的面部图像。同时,从教师StyleGAN模型中提炼出学生生成器,以保持模型的轻量化。

3. MediaPipe FaceStylizer可为用户提供开源访问,允许微调生成器以学习不同的风格,并将生成的模型部署到设备上的面部风格化应用程序中。

站长之家(ChinaZ.com)9月18日 消息:近年来,随着增强现实(AR)技术的崛起,研究人员和消费者对结合AR的智能手机应用表现出了日益增长的兴趣。这种技术允许用户实时生成和修改面部特征,用于短视频、虚拟现实(VR)和游戏等应用。在这方面,基于生成对抗网络(GAN)方法的人脸生成和编辑模型备受欢迎,因为它们不仅轻巧,而且能够保持卓越的图像质量。然而,大多数传统的GAN模型在计算复杂性方面存在严重限制,而且需要大量的训练数据集,同时合乎道德地使用这些模型也是一个重要问题。

image.png

为了应对这些挑战,谷歌研究人员开发了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于少量镜头脸部风格化。这个模型利用了GAN反转技术,将图像转换为潜在编码,然后通过一个适合移动设备的合成网络生成从粗到细粒度的高质量图像。此外,他们还从教师StyleGAN模型中提炼出学生生成器,通过巧妙设计损失函数,并将其与常见的GAN损失函数相结合,创造出一个轻量级模型,能够保持良好的生成质量。MediaPipe还提供了对这一解决方案的开源访问,使用户能够微调生成器,以从一张或多张照片中学习风格。

image.png

该技术的关键组成部分是BlazeStyleGAN模型,它包括一个面部生成器和一个面部编码器,用于生成和优化符合特定美学要求的面部。通过使用MobileNet V2核心,面部编码器将输入照片与面部生成器生成的面部关联起来。研究人员还构建了一个面部风格化流程,使用GAN反转编码器和有效的面部生成器模型,用户可以通过几个样本来微调模型,以适应不同的风格需求。

为了训练BlazeStyleGAN,谷歌团队采用了知识蒸馏技术,使用了广泛使用的StyleGAN2作为训练模型。此外,他们引入了多尺度感知损失,以改善图像生成质量。

最终,BlazeStyleGAN能够在移动设备上以实时速度运行,并且在视觉质量上与教师模型非常接近。研究团队还指出,在某些情况下,BlazeStyleGAN可以通过减少教师模型产生的伪影来提高视觉质量。该技术在移动设备上的性能表现也令人印象深刻,可以在绝大多数高端智能手机上实时运行。

谷歌研究团队的MediaPipe FaceStylizer技术为少镜头脸部风格化提供了一种高效的解决方案,使用户能够在移动设备上实时生成高质量的面部图像。这一技术的发布标志着在设备内部生成模型方面的重要进展,为未来的应用和探索提供了更多可能性。

项目网址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html

举报

  • 相关推荐
  • Stability AI发布AI音乐生成工具“Stable Audio” 可生成长达90S音乐

    伦敦初创公司StabilityAI发布了一款名为StableAudio的AI音乐生成工具,标志着音乐创作领域再次迎来了创新。StableAudio采用了一种称为潜在扩散的技术,据称可以生成高质量、商业可用的音乐。StabilityAI表示,他们正在积极采取措施来确保内容的真实性,包括在图像模型中实施水印技术,以便用户和平台可以识别通过其托管服务生成的AI辅助内容。

  • 创新型生成模型CityDreamer:一键生成无边界的3D城市

    关于3D自然场景生成的研究已经很多,但对于3D城市生成的研究相对较少。这是因为在城市环境中,人们对结构扭曲更加敏感生成3D城市比生成3D自然场景更为复杂。这一技术的应用前景非常广阔,将在游戏、城市规划、虚拟现实等领域发挥关键作用。

  • 谷歌研究人员在 JAX 中引入了一个开源库 用于在球面上进行深度学习

    Google研究人员最近推出了一个基于JAX的开源库,旨在解决在球面上进行深度学习的挑战。传统的深度学习模型通常处理平面数据,例如图像,但科学应用中的数据通常是球面数据。3.这项研究有望在分子性质预测和气象预测等领域取得突破性进展,为医疗研究和气候分析提供有力支持。

  • 韩国AI研究机构出品!MagiCapture:个性化生成高分辨率肖像照片

    韩国的一家人工智能研究机构近日发布了名为MagiCapture的新技术,该技术旨在解决肖像照片个性化生成的多概念定制挑战。人们需要前往照相馆,经历昂贵和耗时的图片编辑过程,才能获得适合简历或婚礼庆典等场合的高质量肖像照片。通过多概念定制和新的学习策略,它成功地克服了传统个性化技术存在的问题,为高分辨率肖像照片的定制创造了更多可能性。

  • Suno AI推文本到音乐模型Chirp v1 可根据风格和歌词生成音乐

    Suno是一家专门从文本生成AI音频的美国创业公司。该公司最近推出了最新的文本到歌曲模型Chirpv1,它可以根据风格和歌词生成音乐,包括人声。关于付款模型的更多信息可以在这里找到。

  • AI初创公司Captions发布多语言视频翻译应用Lipdub

    AI视频编辑初创公司Captions发布了一款名为"Lipdub"的新应用,用于将视频片段翻译成28种语言。该应用支持多种语言,包括法语、印地语、西班牙语、意大利语、葡萄牙语、日语等,甚至可以将视频翻译成德克萨斯俚语、Z世代用语、海盗语和婴儿语。AI配音的初创公司引起了众多投资者的兴趣,像英国的Papercup和以色列的Deepdub等初创公司已筹集了数百万美元。

  • Odin:一个利用GPT-4技术从数据中生成知识图谱的插件

    GitHubRepo上的一个名为Odin的新项目引起了业界的广泛关注。该项目的主要功能是利用GPT-4技术从用户的数据中生成知识图谱。这是Obsidian社区一个非常有前景的插件。

  • 传音TECNO Phantom V flip折叠屏发布:圆形“星球”副屏亮眼

    传音今日在海外正式发布了翻盖式智能手机PhantomVFlip5G。TECNOPhantomVFlip配备一个1.32寸圆形副屏,被成为星球”,采用AMOLED面板,466x466分辨率,60Hz刷新率。TECNOPhantomVFlip首发49999印度卢比。

  • 直接抄Character.AI作业?Meta发布虚拟聊天机器人 Gen AI Personas

    Meta计划推出名为「GenAIPersonas」的AI聊天机器人服务,旨在挽回社交媒体平台的用户流失问题。这款AI聊天机器人将具备个人助理功能,不同性格的聊天机器人选择以及帮助用户更好表达自己的能力。虽然Meta希望通过这一产品吸引年轻用户,但目前的反应复杂,不确定性较大。

  • 视频编辑器CapCut:针对人工智能驱动的脚本生成工具

    CapCut是字节跳动旗下的视频编辑应用程序,是该公司继TikTok之后第二个消费者支出突破1亿美元的应用程序,目前正在扩展到商业工具领域。CapCut因其易于使用的模板、与TikTok的紧密集成以及AI效果和滤镜的快速采用闻名,它已成为顶级消费者视频编辑应用程序,目前经常跻身iOS应用程序整体应用程序前10名或前20名。品牌、营销人员和创作者可以免费使用新的CapCutforBusiness软件�