首页 > 业界 > 关键词  > AI肖像最新资讯  > 正文

AI修改肖像模型DiffAE :可随意改变性别、年龄、表情、妆发等

2023-09-18 10:50 · 稿源:站长之家

文章概要:

DiffAE是一种图像到图像的模型,用于修改肖像图像。它可以改变人们的性别、年龄、表情、配饰或头发,使图像看起来不同于原始图像。

DiffAE模型的工作原理涉及两个主要部分:语义编码器和条件去噪扩散隐式模型(DDIM)。语义编码器负责捕捉图像的高级抽象特征,而条件DDIM则负责捕捉图像的微小变化。

使用DiffAE模型进行图像修改需要准备输入图像、选择修改向量(如添加或删除头发等),并可以控制修改的强度。输出是经过修改的图像,并且可以通过Webhook异步接收。

站长之家(ChinaZ.com)9月18日 消息:DiffAE是一款强大的人工智能模型,可以改变人们的性别、年龄、表情、配饰或头发,无需专业技能。过去,要实现这样的图像编辑,需要具备高超的照片编辑技巧,但现在借助扩散自动编码器(DiffAE)等AI模型,任何人都可以通过几行代码轻松地进行肖像编辑。

无论是摄影师想要修复照片,还是时装设计师想要制作创意原型,DiffAE都可以满足各种的需求。

关于 DiffAE 模型

DiffAE 是由cjwbw实现和维护并托管在 Replicate 上的图像到图像模型。它利用一种称为扩散模型的技术来操纵图像。它托管在 Replicate 上,平均运行时间为43秒,每次运行成本为0.02365美元。使用的硬件是 Nvidia T4GPU。更多技术细节和 API 规范可在其详细信息页面上找到。

该模型接收输入照片和可选参数,例如“添加刘海”或“秃头”。它输出原始图像的修改版本以及所请求的更改。扩散过程使其能够产生真实、高质量的结果。

image.png

在底层,DiffAE 使用自动编码器架构。编码器部分学习表示图像的关键特征,例如头发和面部形状。然后,解码器在保留整体真实性的同时转换这些特征。这允许无缝修改。

DiffAE的工作原理非常复杂,简单的说它包括两个主要部分:语义编码器和条件去噪扩散隐式模型(DDIM)。语义编码器负责捕捉图像的高级抽象特征,而DDIM则负责捕捉图像的微小细节。通过结合这两部分的信息,DiffAE可以几乎精确地重建原始图像或相似变体。

DiffAE的应用非常广泛,摄影师可以轻松去除照片上的瑕疵,或让拍摄对象看起来更年轻或更年长。时装设计师可以根据模特照片制作服装和配饰的创意原型,而化妆师则可以为客户展示新发型等可能性。

以下只是该模型可以对真人的真实图像执行哪些操作的几个示例!其中一些变化 - 将老人变成年轻人,让悲伤的人微笑,或者添加或删除眼镜:

image.png

image.png

自媒体创作者可以利用DiffAE快速生成自拍照的变体,为创作者和艺术家提供了新的创作机会。

虽然 DiffAE 用途广泛且有效,但它也有其局限性:

  • 仅限于肖像:该模型专门用于肖像图像,在其他类型上可能表现不佳。

  • 计算成本:该模型平均需要43秒才能运行,这对于实时应用程序来说可能并不理想。

  • 高振幅伪影:当操纵振幅设置得太高时,可能会导致伪影。

  • 每次运行成本:每次运行0.02365美元,对于批量操作来说可能会很昂贵。

整体来看,DiffAE是一款强大的AI模型,可以为各种创意项目提供支持,从照片修复到创意设计。随着不断的优化和整合,它将成为各种应用程序和工具的重要组成部分,为用户提供无限的创作机会。

举报

  • 相关推荐
  • 群友在群聊捂嘴笑表情被起诉 法院:未侵权 驳回请求

    近日,一场微信群聊对话引发了一场官司,原因是因为一个表情符号。江苏的张某和李某是微信群的群友,某天李某在群聊中提到张某并称其坏人,同时配上了咧嘴笑和捂嘴笑的表情符号。网友们也应增强责任意识,尊重他人,不滥用表情符号。

  • 顺网科技开启顺网灵悉限量邀测,AI随心定制会发表情

    9月23日,顺网科技宣布AI新品顺网灵悉正式开启限量邀测。该测试为PC客户端及移动端小程序共计开放10000个测试名额,用户可通过顺网灵悉官网或微信小程序提交申请参与测试。邀测用户遇到的问题可以直接通过顺网灵悉公众号向灵悉体验官反馈,团队会在第一时间予以关注并改进。

  • 闪魔IP表情包来了!超萌魔闪闪正式“出道”

    “斗图”即在网络聊天中只发表情图不打字,通过一来一往的表情,完成基本的沟通。越萌、越搞笑的表情越受欢迎。这是网络表情出现后一种常见的游戏。近期,中国3C数码领域的领军企业闪魔,发布了其首套品牌IP形象“魔闪闪SAMO”系列表情包,将“斗图”进行到底!该套表情包形象,是在魔闪闪科技风外貌特点的基础上进行了Q萌化设计,并糅合拟人化的动作,展现了魔�

  • EmojiGen:一个开源表情符号生成器网站

    EmojiGen是一个开源的表情符号生成器。它使用了先进的AI技术,可以根据用户的文字描述快速生成有趣的表情符号图片。这个开源项目也为其他开发者提供了参考,可以进行二次开发打造出更多优秀的AI应用。

  • AI的大模型时代 ≠ 只有大模型AI时代

    什么样的技术能经历时间洗礼还历久弥新?答案或许可以归总为一个“三部曲”般的规律——兴起、发展和大规模应用,外加这个过程再一次演进式的迭代。引领第一次工业革命的是蒸汽机,当它演进成为内燃机并开始普及时,第二次工业革命的颠覆者——电能本身以及与它相关的各种设备正处于初创期在电力设备走向微电子的迭代革新时,各种燃油引擎还在持续改良和普及中�

  • 微信群成员因一个表情包被起诉!律师:没构成名誉权侵犯

    江苏一名微信群成员因在群聊中发表“捂嘴笑”的表情包被另一成员起诉侵犯名誉权一事引起关注。群成员李某和张某均为微信群的群友,该群约有130人。律师分析称,在判断某一行为是否构成侵害名誉权时需要考虑多个因素:受害人社会评价降低、信息发布存在侮辱诽谤以及行为人具有过错等。

  • 腾讯QQ表情包保存功能被禁止 仅支持下载到云端图片

    近日,有网友发现腾讯QQ表情包保存功能已无法保存为本地图片,类似于微信的表情包保存功能。腾讯QQ官方反馈页面上显示,这一功能限制是基于对表情版权的保护,因此不再支持表情下载到本地。经过测试发现,用户在更新到最新的QQ 8.9.80版本后,就会出现这一表情包保存限制,而此前的QQ版本仍然可以下载表情包到本地图片。 腾讯QQ 8.9.80版本带来了新互动标识,并提升了�

  • 腾讯文档思维导图全新升级!6个精美主题、超多emoji表情

    腾讯文档最近全新升级了思维导图”功能,提供了6个精美主题支持丰富的emoji表情,让思维导图更加生动。全新设计6个精美主题,涵盖简约白、静谧蓝、清新绿、活力橙、商务黑以及多巴胺色彩。不再担心分享思维导图图片时,被社交平台等软件压缩。

  • 「深呼吸」让大模型现更佳!谷歌DeepMind利用大语言模型生成Prompt,还是AI更懂AI

    【新智元导读】谷歌DeepMind提出了一个全新的优化框架OPRO,仅通过自然语言描述就可指导大语言模型逐步改进解决方案,实现各类优化任务。「深呼吸,一步一步地解决这个问题。这项研究首次提出并验证了使用大语言模型进行优化的有效性,为利用LLM进行更广泛优化任务提供了框架和经验,是这个新的研究方向的开拓性工作,具有重要意义。

  • 上交AI数学开源模型阿贝尔登开源模型排行榜首 打破美国AI公司霸榜局面

    上海交大生成式人工智能研究组的阿贝尔模型在数学推理领域取得了重大突破,打破了美国AI公司在这一领域的霸榜局面,成为国内开源模型排行榜首。阿贝尔项目的成功背后是有监督精调方法的巧妙运用,以及精心策划的训练数据。尽管仍然存在一些挑战和局限性,但这一成就为国内的人工智能研究团队赢得了国际认可,为AI领域的发展注入了新的活力。