首页 > 业界 > 关键词  > DreamIdentity最新资讯  > 正文

研究人员提出AI免优化框架DreamIdentity 保持身份一致且可编辑

2023-07-19 11:13 · 稿源:站长之家

站长之家(ChinaZ.com)7月19日 消息:为了解决人脸身份保存和可编辑性方面的问题,研究人员提供了一个独特的免优化框架(名为 DreamIdentity)。通过创建一个独特的多词多尺度身份编码器 (M2ID 编码器),以实现准确的身份表示,并使用自增强的可编辑性学习方法将编辑任务移到训练阶段。他们的方法既保持了身份的一致性,又实现了文本引导的灵活修改,有效实现了身份再语境化。

据了解,传统的文本到图像模型可以根据自然语言描述生成与特定人脸身份相关的不同情境的图像。然而,现有的优化无关方法在保持身份的同时保持模型的可编辑性方面存在困难。

由于基于扩散的大规模文本到图像 (T2I) 模型,创建视觉材料的学科最近发生了变化。这些 T2I 模型使制作引人入胜、富有表现力且以人为本的图形变得简单。这些模型的一个有趣的用途是,它们能够根据日常生活中特定人的面孔(我们的家人、朋友等),使用自然语言描述生成与身份相关的各种情况。身份重新情境化挑战与图1所示的典型 T2I 任务不同,要求模型在遵守文本提示的同时保持输入面部识别(即 ID 保留)。

image.png

为每个人脸身份个性化预训练的 T2I 模型是一种可行的方法。它需要学习通过增强单词嵌入或微调模型参数来将特定单词与本质相关联。由于每个身份的优化,这些基于优化的方法可能会更有效。为了避免耗时的每个身份优化,各种免优化方法建议直接将从预训练图像编码器(通常是 CLIP)获得的图像特征映射到词嵌入中。然而,这会损害 ID 的保存。因此,这些技术存在损害原始 T2I 模型编辑技能的危险,因为它们要么需要微调预训练 T2I 模型的参数,要么改变原始结构以注入额外的网格图像特征。

简而言之,所有并发的免优化工作都在努力保持身份,同时保持模型的可编辑性。他们认为,两个问题,即(1)错误的身份特征表示和(2)训练和测试目标不一致,是现有无优化研究中上述困难的根本原因。一方面,目前最好的 CLIP 模型在 top-1人脸识别准确率上仍然比人脸识别模型差很多(80.95% vs.87.61%),这表明所使用的通用编码器(即 CLIP)通过同时努力不足以完成身份重新情境化工作。此外,CLIP 的最后一层功能主要关注高级语义而不是精确的面部描述, 输入面部的可编辑性受到使用普通重建目标来学习单词嵌入的所有并发任务的负面影响。为了解决上述身份保存和可编辑性方面的困难,他们提供了一个独特的免优化框架(名为 DreamIdentity),具有准确的身份表示和一致的训练/推理目标。更准确地说,他们在 Vision Transformer 的架构中创建了独特的多字多尺度 ID 编码器(M2ID 编码器),以实现正确的识别表示。该编码器在相当大的人脸数据集上进行了预训练,并将多尺度特征投影到多词嵌入中。

中国科学技术大学和字节跳动的研究人员提出了一种新颖的自我增强可编辑性学习方法,将编辑任务转移到训练阶段。该方法使用 T2I 模型通过生成名人面孔和各种目标编辑的名人图像来构建自增强数据集。M2ID 编码器使用此数据集进行训练,以提高模型的可编辑性。他们对这项工作做出了以下贡献:他们认为,由于错误的表示和不一致的训练/推理目标,现有的免优化方法对于 ID 保存和高可编辑性来说是无效的。

从技术上讲,(1)他们建议使用 M2ID 编码器,这是一种具有多重嵌入投影的 ID 感知多尺度特征,用于适当的表示。(2) 它们结合了自我增强的可编辑性学习,使底层 T2I 模型能够提供高质量的数据集进行编辑,以实现一致的训练/推理目标。综合研究证明了他们的方法的有效性,有效地实现了身份保留,同时允许灵活的文本引导修改或身份重新上下文化。

举报

  • 相关推荐
  • 研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好

    10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的ClaudeAI模型之间展开了激烈的角逐。负责创建ChatbotArena和著名的Vicuna模型的大型模型系统组织刚刚更新了他们的ChatbotArena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。

  • 斯坦福大学研究人员提出MAPTree算法,改进决策树建模

    决策树是一种广泛使用的著名机器学习算法,可用于分类和回归任务。斯坦福大学的研究人员在最新论文中提出了一种称为MAPTree的决策树归纳算法,这是基于贝叶斯决策树理论的一种改进方法。这项突破不仅利于决策树算法本身的发展,也为决策树在数据挖掘等领域的应用带来了新的契机。

  • Meta研究人员提出轻量级微调方法RA-DIT 以增强语言模型知识检索能力

    Meta的研究人员提出了一种名为检索增强双指令调优的新型人工智能方法,用于提升语言模型的知识检索能力。该方法试图解决大型语言模型在捕获较为冷门知识时的局限性以及大规模预训练的高计算成本问题。该研究证明了轻量级指令调优对检索增强语言模型的有效性,特别是在涉及大规模外部知识源的场景中。

  • 研究人员发现使用少见语言即可绕过GPT-4的限制

    布朗大学的计算机科学研究人员发现了OpenAI的GPT-4存在的安全性问题。通过使用不常见的语言,如祖鲁语和盖尔语,他们成功绕过了GPT-4的限制性设置。尽管他们意识到这一研究可能会给网络犯罪分子提供想法,但他们仍然认为将这一漏洞公之于众是必要的,因为利用现有的翻译API轻松实施这些攻击,因此那些试图绕过安全防护的恶意行为者最终会发现这一漏洞。

  • 中国研究人员提出DualToken-ViT:CNN和视觉Transformer的融合,提高图像处理效率和准确性

    视觉Transformer成为各类视觉任务如物体识别和图片分类的有效架构。这是因为自注意力可以从图片中提取全局信息卷积核大小限制了卷积神经网络只能提取局部信息。他们的贡献有:1)提出了紧凑高效的视觉Transformer模型DualToken-ViT,通过卷积和自注意力的优势实现有效的注意力结构;2)提出位置感知全局令牌,通过图像位置信息来增强全局信息;3)DualToken-ViT在相同FLOPs下在多个视觉任务上表现最好。

  • 微软人工智能研究人员泄露 38TB 数据:包括密钥、密码和 Teams 消息

    微软的人工智能研究员在GitHub上发布开源训练数据存储桶时,意外暴露了数十TB的敏感数据,包括私钥和密码。云安全初创公司Wiz发现了这个属于微软AI研究部门的GitHub仓库,并将其作为其持续进行的云托管数据意外曝光工作的一部分分享给TechCrunch。」微软表示,由于Wiz的研究,它已经扩展了GitHub的秘密扫描服务,该服务可以监控所有公开源代码的更改,以防明文暴露凭证和其他秘密,包括任何可能具有过度许可过期或权限的SAStoken。

  • AI研究人员发现了主要大语言模型中关键漏洞 可低成本复制

    大型语言模型如ChatGPT和Bard在全球范围内引起了广泛的关注,众多公司投资数百万美元用于开发这些人工智能工具一些领先的AI聊天机器人的估值已达到了数十亿美元。这些LLM主要被应用于AI聊天机器人,它们通过整合互联网上的大量信息来学习和为用户提供请求的答案,这些请求通常被称为“提示”。”这项研究为我们提醒了虽然AI技术带来了巨大的机会,但也伴随着一系列潜在的威胁,因此必须谨慎行事。

  • 研究人员推出深度学习模型RECAST 改进地震预测

    来自加州伯克利分校、圣克鲁斯分校以及慕尼黑工业大学的研究人员发表论文,阐述了一种崭新的模型,将深度学习引入地震预测领域。该模型被命名为RECAST,相比自1988年问世以来改进有限的当前标准模型ETAS,RECAST可利用更大的数据集,提供更高的灵活性。你会看到它朝着正确的方向发展。

  • DeepMind研究人员发现,深度学习模型在图像和音频压缩方面表现出色

    Google旗下的人工智能子公司DeepMind发布的一项研究表明,大型语言模型除了在文本数据处理方面表现出色之外具备出色的图像和音频数据压缩能力。这一发现为重新审视LLMs的潜力提供了新的角度。这表明LLMs的性能与数据集的大小有关,压缩率可以作为评估模型对数据集信息学习的指标。

  • Google DeepMind提出DRaFT算法以高效优化扩散模型

    扩散模型已经革新了各类数据的生成建模。但是在实际应用中,如根据文本描述生成美观图像,仍需要微调模型。其效率、通用性和有效性使其成为机器学习和生成建模领域研究者和从业者的有价值工具。