站长之家(ChinaZ.com)7月26日 消息:最近,大型机器学习模型在各种任务中都表现出色。然而,训练此类模型需要大量的计算机能力。因此,正确有效地利用当前大量的预训练模型至关重要。
然而,即插即用地融合各种模型的能力的挑战仍然需要解决。完成此任务的机制最好应该是模块化和模型中立的,允许简单的模型组件切换(例如,用带有 VAE 的新的、尖端的文本/图像模型替换 CLIP)。
研究人员发现了一种名为 TR0N 的简单而高效的方法,可以将任何类型的条件添加到预训练生成模型中。传统上,条件生成模型需要从头开始训练,使用匹配条件的数据对进行训练。
TR0N 提供了一个广泛的框架,可以将预训练的无条件生成模型训练为有条件模型。它利用一个辅助模型将数据点映射到其相关条件,并使用一个函数来优化潜变量,以生成满足条件的数据样本。
TR0N 还引入了翻译网络作为优化过程的一部分,并使用 Langevin 动力学采样策略来生成样本。实验结果表明,TR0N 在图像质量和计算可行性方面表现优于其他方法,并且能够产生多样化的样本。
在图1的左侧面板中,他们描述了如何训练翻译器网络。训练翻译网络后,使用其输出开始优化 E。与朴素初始化相比,这可以恢复由于摊销差距而导致的任何性能损失,从而产生更好的局部最优和更快的收敛。可以将 TR0N 解释为使用有效初始化策略的朗之万动力学采样,因为 TR0N 是一种随机方法。翻译器网络是一个条件分布 q(z|c),它将高密度分配给潜在 z,以便 E(z, c) 很小。他们还在 E 的梯度优化过程中添加了噪声。在图1的右侧面板上,他们演示了如何使用 TR0N 进行采样。
他们做出了三项贡献:(i)引入翻译网络及其特别有效的参数化,允许采用不同的方式来初始化朗之万动力学;(ii) 将 TR0N 构建为一个高度通用的框架,而之前的相关工作主要关注具有特定 G 和 f 选择的单一任务;(iii) 证明 TR0N 在图像质量和计算可处理性方面在不同任务中凭经验优于竞争替代方案,同时产生不同的样本。HuggingFace 上提供了演示。
论文地址:https://arxiv.org/abs/2304.13742
演示地址:https://huggingface.co/spaces/Layer6/TR0N
(举报)