TR0N：将任何类型的条件添加到预训练生成模型的简单有效方法

2023-07-26 16:06 · 稿源：站长之家专栏

站长之家（ChinaZ.com）7月26日消息:最近，大型机器学习模型在各种任务中都表现出色。然而，训练此类模型需要大量的计算机能力。因此，正确有效地利用当前大量的预训练模型至关重要。

然而，即插即用地融合各种模型的能力的挑战仍然需要解决。完成此任务的机制最好应该是模块化和模型中立的，允许简单的模型组件切换（例如，用带有 VAE 的新的、尖端的文本/图像模型替换 CLIP）。

大模型代码互联网.png

研究人员发现了一种名为 TR0N 的简单而高效的方法，可以将任何类型的条件添加到预训练生成模型中。传统上，条件生成模型需要从头开始训练，使用匹配条件的数据对进行训练。

TR0N 提供了一个广泛的框架，可以将预训练的无条件生成模型训练为有条件模型。它利用一个辅助模型将数据点映射到其相关条件，并使用一个函数来优化潜变量，以生成满足条件的数据样本。

TR0N 还引入了翻译网络作为优化过程的一部分，并使用 Langevin 动力学采样策略来生成样本。实验结果表明，TR0N 在图像质量和计算可行性方面表现优于其他方法，并且能够产生多样化的样本。

在图1的左侧面板中，他们描述了如何训练翻译器网络。训练翻译网络后，使用其输出开始优化 E。与朴素初始化相比，这可以恢复由于摊销差距而导致的任何性能损失，从而产生更好的局部最优和更快的收敛。可以将 TR0N 解释为使用有效初始化策略的朗之万动力学采样，因为 TR0N 是一种随机方法。翻译器网络是一个条件分布 q（z|c），它将高密度分配给潜在 z，以便 E(z， c) 很小。他们还在 E 的梯度优化过程中添加了噪声。在图1的右侧面板上，他们演示了如何使用 TR0N 进行采样。

他们做出了三项贡献:（i）引入翻译网络及其特别有效的参数化，允许采用不同的方式来初始化朗之万动力学;(ii) 将 TR0N 构建为一个高度通用的框架，而之前的相关工作主要关注具有特定 G 和 f 选择的单一任务;(iii) 证明 TR0N 在图像质量和计算可处理性方面在不同任务中凭经验优于竞争替代方案，同时产生不同的样本。HuggingFace 上提供了演示。

论文地址:https://arxiv.org/abs/2304.13742

演示地址:https://huggingface.co/spaces/Layer6/TR0N

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Stability AI发布音频模型 Stable Audio2.0:支持生成多种类型音乐时长达3分钟

著名开源大模型平台Stability.ai在官网正式发布了音频模型StableAudio2.0。这一版本支持用户通过文本或音频生成多种类型的高质量音乐，时长可达3分钟44.1kHz。随着Stability.ai不断推出新功能和技术，用户可以期待更多高质量、多样化的音乐生成体验。

StableAudio StableAudio2.0 AI头条
ImagenHub官网体验入口 AI图像生成模型评估平台使用指南方法教程

ImagenHub是一个一站式库，用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。ImagenHub设计了两个人工评估指标，语义一致性和感知质量，并训练专家评审员根据这些指标对模型输出进行评估，获得了高的评估者间一致性。

ImagenHub
Adobe发布新一代图像生成模型Firefly Image3，号称迄今为止最好

Adobe发布了Firefly图像生成模型的最新版本，名为FireflyImage3，声称具有“摄影细节”的图像生成能力。相比之前的版本，这一第三代模型在图像生成能力上有了显著的改进。即使是新手用户也可以在Photoshop中游刃有余，并更快地成为高级用户，PhotoshopgentechAI产品管理总监JohnMetzger表示。

Adobe FireflyImage3 AI头条
文本直接生成2分钟视频，即将开源模型StreamingT2V

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。视频中的物体运动姿态丰富，场景和物体随时间的演变更加自然流畅，没有突兀的断层或冻结情况出现。

人工智能视频模型文本生成
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
Magic Compass Ltd观察：国际上黄金市场的主要划分方式和类型

黄金市场是买卖双方集中进行黄金买卖的交易中心，提供即期和远期交易，允许交易商进行实物交易或者期权期货交易，投机或套期保值是各国完整的金融市场体系的重要组成部分。随着货币制度的发展，黄金已逐渐丧失了交易媒介和价值衡量尺度的货币职能，但仍在国际贸易、国际间债权债务清算以及国际储备等方面保持着一定的货币特征。国内交易市场是指禁止黄金进出口，只允许居民不允许非居民买卖黄金的市场，如巴黎黄金市场。

黄金市场黄金交易金融市场
Mixtral-8x22B官网体验入口语言模型文本生成工具使用指南

Mixtral-8x22B是一个预训练的生成式稀疏专家语言模型，由MistralAI团队开发。该模型拥有141B个参数，支持多种优化部署方式，旨在推进人工智能的开放发展。

Mixtral-8x22B
OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

AI公司在获取高质量训练数据方面遇到的挑战，OpenAI为了训练其最先进的大型语言模型GPT-4，使用了超过一百万小时的YouTube视频副本。该公司通过其Whisper音频转录模型转录这些视频，尽管这一做法在法律上具有争议性，OpenAI仍认为这属于合理使用。AI领域正面临训练数据短缺的挑战解决方案尚未明朗，公司们需要权衡利弊并寻求合理途径应对这一问题。

OpenAI GPT-4 YouTube
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4
Nightshade：使AI模型在未经许可的情况下无法训练图片

站长之家（ChinaZ.com）4月9日消息:据报道，芝加哥大学的研究人员开发了一种名为Nightshade的工具，旨在防止未经许可的AI图像生成。该工具可以使AI图像生成器无法使用未经许可的图像进行训练，从而保护了艺术家和版权所有者的作品。Nightshade的工作原理是在图像中添加隐藏信息，这些信息对人眼不可见。当像Stable Diffusion这样的AI图像生成器尝试使用这些图像进行训练时，这些

Nightshade AI头条

RAGFlow:开源的基于深度文档理解的RAG（检索增强生成）引擎

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，基于深度文档理解，提供流线型的RAG工作流程，适用于各种规模的企业。它结合了大型语言模型（LLM）提供真实的问答能力，支持从各种复杂格式数据中引用确凿的引文。

自然语言处理机器学习信息检索

EmojiTell:使用表情组合翻译器，让沟通更有趣且富有表现力。

EmojiTell是一个创新的在线服务，可以将文本翻译成表情组合，增加沟通的趣味性和表现力。它由一支对表情符号充满热情的开发者和设计师团队开发，旨在通过表情符号的力量，让信息传递更加生动和个性化。

表情符号翻译沟通

Perplexica:一个开源的AI驱动搜索引擎，提供深入网络的答案。

Perplexica是一个开源的AI驱动搜索引擎，它不仅搜索网络，还理解您的问题。它使用先进的机器学习算法，如相似性搜索和嵌入，来优化结果，并提供引用来源的清晰答案。使用SearxNG保持最新和完全开源，确保您始终获得最新信息，同时不损害您的隐私。

搜索引擎机器学习人工智能

FaceChain:深度学习工具链，用于生成你的数字孪生体。

FaceChain是一个深度学习工具链，由ModelScope提供支持，能够通过至少1张肖像照片生成你的数字孪生体，并在不同设置中生成个人肖像（支持多种风格）。用户可以通过FaceChain的Python脚本、熟悉的Gradio界面或sd webui来训练数字孪生模型并生成照片。FaceChain的主要优点包括其生成个性化肖像的能力，支持多种风格，以及易于使用的界面。

深度学习数字孪生个性化

Huggingface 镜像站:一个公益项目，致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

HuggingFace镜像站是一个非盈利性项目，旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程，减少因网络问题导致的中断，它极大地提高了开发者的工作效率。该镜像站支持多种下载方式，包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。

AI 机器学习数据集

WebLlama:构建能够根据指令浏览网页并和您对话的强大代理

WebLlama是一个基于Meta Llama 3构建的代理，专门为网页导航和对话进行了微调。它旨在构建有效的以人为中心的代理，帮助用户浏览网页，而不是取代用户。该模型在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能。

网页导航对话代理机器学习

Infra Copilot:利用机器学习自动生成基础设施代码，提高开发效率。

GitHub Copilot for Infrastructure as Code（简称Infra Copilot）是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文，允许专业人员使用自然语言表达需求，并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码（IaC）的开发过程，还确保了跨环境和项目的一致性，加速了新团队成员的上手和学习过程，显著提高了工作效率并节约了时间。

基础设施即代码自动化机器学习

LLaVA++:扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

TR0N：将任何类型的条件添加到预训练生成模型的简单有效方法

今日大家都在搜的词：

热文

站长商机