首页 > 业界 > 关键词  > MediaPipe最新资讯  > 正文

谷歌研究发布MediaPipe FaceStylizer 轻松生成各种风格头像

2023-09-18 18:02 · 稿源:站长之家

文章概要:

1. 谷歌研究推出了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于在少量镜头情况下进行人脸风格化。这项技术适用于短视频、虚拟现实和游戏等领域,具有轻量级和高质量的特点。

2. 该技术使用了生成对抗网络(GAN)方法,将图像转换为潜在编码,通过合成网络和辅助头来生成高质量的面部图像。同时,从教师StyleGAN模型中提炼出学生生成器,以保持模型的轻量化。

3. MediaPipe FaceStylizer可为用户提供开源访问,允许微调生成器以学习不同的风格,并将生成的模型部署到设备上的面部风格化应用程序中。

站长之家(ChinaZ.com)9月18日 消息:近年来,随着增强现实(AR)技术的崛起,研究人员和消费者对结合AR的智能手机应用表现出了日益增长的兴趣。这种技术允许用户实时生成和修改面部特征,用于短视频、虚拟现实(VR)和游戏等应用。在这方面,基于生成对抗网络(GAN)方法的人脸生成和编辑模型备受欢迎,因为它们不仅轻巧,而且能够保持卓越的图像质量。然而,大多数传统的GAN模型在计算复杂性方面存在严重限制,而且需要大量的训练数据集,同时合乎道德地使用这些模型也是一个重要问题。

image.png

为了应对这些挑战,谷歌研究人员开发了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于少量镜头脸部风格化。这个模型利用了GAN反转技术,将图像转换为潜在编码,然后通过一个适合移动设备的合成网络生成从粗到细粒度的高质量图像。此外,他们还从教师StyleGAN模型中提炼出学生生成器,通过巧妙设计损失函数,并将其与常见的GAN损失函数相结合,创造出一个轻量级模型,能够保持良好的生成质量。MediaPipe还提供了对这一解决方案的开源访问,使用户能够微调生成器,以从一张或多张照片中学习风格。

image.png

该技术的关键组成部分是BlazeStyleGAN模型,它包括一个面部生成器和一个面部编码器,用于生成和优化符合特定美学要求的面部。通过使用MobileNet V2核心,面部编码器将输入照片与面部生成器生成的面部关联起来。研究人员还构建了一个面部风格化流程,使用GAN反转编码器和有效的面部生成器模型,用户可以通过几个样本来微调模型,以适应不同的风格需求。

为了训练BlazeStyleGAN,谷歌团队采用了知识蒸馏技术,使用了广泛使用的StyleGAN2作为训练模型。此外,他们引入了多尺度感知损失,以改善图像生成质量。

最终,BlazeStyleGAN能够在移动设备上以实时速度运行,并且在视觉质量上与教师模型非常接近。研究团队还指出,在某些情况下,BlazeStyleGAN可以通过减少教师模型产生的伪影来提高视觉质量。该技术在移动设备上的性能表现也令人印象深刻,可以在绝大多数高端智能手机上实时运行。

谷歌研究团队的MediaPipe FaceStylizer技术为少镜头脸部风格化提供了一种高效的解决方案,使用户能够在移动设备上实时生成高质量的面部图像。这一技术的发布标志着在设备内部生成模型方面的重要进展,为未来的应用和探索提供了更多可能性。

项目网址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html

举报

  • 相关推荐
  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 双11鸿蒙应用持续升级,小艺、应用市场等App让购物更省心

    双十一期间,华为应用市场推出"11.11好物集"专题,提供购物指南与达人穿搭参考,帮助用户高效筛选商品。鸿蒙系统的小艺助手支持商品比价、智能下单及多任务语音操作,简化购物流程。出境游用户可使用天际通流量服务,无需实体卡,按天计费;配合云空间自动释放本地存储,保障旅行照片视频安全同步。通过智慧功能与便捷服务,为用户打造更流畅、安全的消费与出行体验。

  • 饿了么APP更名为淘宝闪购 版本号升级至12.0.2

    饿了么App正式升级为淘宝闪购,版本号12.0.2,打通天猫旗舰店与饿了么货盘资源,推出“电商低至30分钟送达”极速服务,覆盖餐饮、3C数码、美妆等全品类商品。升级后与饿了么携手加大补贴力度,提供免单红包、免单奶茶、大额满减外卖券等超级权益,并加入今年天猫双11活动,88VIP用户可获红包惊喜、折上折等福利,提升消费者购物体验与实惠。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

今日大家都在搜的词: