首页 > 业界 > 关键词  > 正文

TR0N:将任何类型的条件添加到预训练生成模型的简单有效方法

2023-07-26 16:06 · 稿源:站长之家专栏

站长之家(ChinaZ.com)7月26日 消息:最近,大型机器学习模型在各种任务中都表现出色。然而,训练此类模型需要大量的计算机能力。因此,正确有效地利用当前大量的预训练模型至关重要。

然而,即插即用地融合各种模型的能力的挑战仍然需要解决。完成此任务的机制最好应该是模块化和模型中立的,允许简单的模型组件切换(例如,用带有 VAE 的新的、尖端的文本/图像模型替换 CLIP)。

大模型 代码 互联网.png

研究人员发现了一种名为 TR0N 的简单而高效的方法,可以将任何类型的条件添加到预训练生成模型中。传统上,条件生成模型需要从头开始训练,使用匹配条件的数据对进行训练。

TR0N 提供了一个广泛的框架,可以将预训练的无条件生成模型训练为有条件模型。它利用一个辅助模型将数据点映射到其相关条件,并使用一个函数来优化潜变量,以生成满足条件的数据样本。

TR0N 还引入了翻译网络作为优化过程的一部分,并使用 Langevin 动力学采样策略来生成样本。实验结果表明,TR0N 在图像质量和计算可行性方面表现优于其他方法,并且能够产生多样化的样本。

image.png

在图1的左侧面板中,他们描述了如何训练翻译器网络。训练翻译网络后,使用其输出开始优化 E。与朴素初始化相比,这可以恢复由于摊销差距而导致的任何性能损失,从而产生更好的局部最优和更快的收敛。可以将 TR0N 解释为使用有效初始化策略的朗之万动力学采样,因为 TR0N 是一种随机方法。翻译器网络是一个条件分布 q(z|c),它将高密度分配给潜在 z,以便 E(z, c) 很小。他们还在 E 的梯度优化过程中添加了噪声。在图1的右侧面板上,他们演示了如何使用 TR0N 进行采样。

他们做出了三项贡献:(i)引入翻译网络及其特别有效的参数化,允许采用不同的方式来初始化朗之万动力学;(ii) 将 TR0N 构建为一个高度通用的框架,而之前的相关工作主要关注具有特定 G 和 f 选择的单一任务;(iii) 证明 TR0N 在图像质量和计算可处理性方面在不同任务中凭经验优于竞争替代方案,同时产生不同的样本。HuggingFace 上提供了演示。

论文地址:https://arxiv.org/abs/2304.13742

演示地址:https://huggingface.co/spaces/Layer6/TR0N

举报

  • 相关推荐
  • 水滴信用:专业企业大数据MCP服务商提供多类型多数据维度企业信息MCP

    水滴信用作为专业企业大数据服务商,通过多维度企业信息MCP矩阵,整合工商、司法、知识产权、招投标等海量数据,构建企业级智能平台。提供企业查询、风险扫描、供应商管理、上市公司分析等场景化服务,帮助金融机构、企业及投资者高效获取精准洞察,实现数据驱动的智能决策与风险管控,推动商业效率革新。

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • 美团也开源了大模型,但我觉得他们的野心是通用生活Agent。

    也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�

  • 降低创作门槛!爱诗科技新一代生成式大模型加速AI视频大众化

    爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5,实现秒级高质量视频生成,支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升,覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手,降低使用门槛,用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用,加速行业落地。

  • 8岁男孩常吃辣条确诊结肠癌 医生警示:需注意添加剂

    ​8月28日,河南郑州一名8岁男孩因频繁腹痛就医,竟被确诊为结肠癌,这一消息令其家人震惊不已。据家属透露,孩子自幼儿园起便经常将方便面、辣条等零食当作正餐食用,长期不良饮食习惯或为致病诱因。 主治医生在诊断后严肃指出,高油、高盐、辛辣刺激类食物会严重损害儿童肠胃功能,增加消化系统疾病风险。他特别提醒家长:"孩子肠胃娇嫩,饮食需格外注意营�

  • 欧税通成为TikTok Shop官方认证全品类合规TSP服务商!

    欧税通凭借出色的出海合规服务能力,正式通过TikTok Shop官方审核,成为其推荐的TSP服务商。此次认证覆盖税务合规、EPR合规、检测认证、授权代表、知识产权服务等全品类合规服务。作为跨境合规SaaS平台,欧税通以全品类覆盖和技术驱动的双轮优势,连续三年稳居中国跨境合规行业市占率第一。未来将与TikTok Shop在产品迭代、技术协同等方面展开深度合作,助力中国品牌合规出海。

  • 维谛(Vertiv)宣布收购生成式AI软件领军企业Waylay NV

    维谛技术(Vertiv)宣布收购比利时生成式AI软件企业Waylay NV,旨在提升关键数字基础设施的运营智能化水平、系统优化能力及服务体验。此次收购将整合Waylay先进的AI驱动自动化平台,帮助客户实现数据中心电力与热管理系统的实时监控、预测性维护和动态优化,应对AI工作负载快速增长的需求。维谛CEO表示,这将加速公司智能化基础设施愿景的实现,助力客户提升运营效率与�

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 长虹电视如何把手机投屏到电视上?只需简单几步,就能享受高清投屏

    文章主要介绍了长虹电视投屏常见问题及解决方案。投屏失败原因包括网络连接问题、投屏功能未开启、系统版本过低、第三方软件不兼容及硬件故障。建议优先使用第三方投屏软件如当贝投屏,支持多设备跨平台连接,具备动态调整画质功能保证流畅体验。最后详细说明了当贝投屏的下载安装方法及多屏共享操作步骤,帮助用户轻松实现无障碍投屏。

  • 明基RD系列深度护航CCF创新创业训练营,以专业编程设备赋能未来数字化人才

    2025年8月11日至20日,中国计算机学会(CCF)在宁波海曙区举办首届算法能力大赛创新训练营。50名顶尖高校学员参与为期10天的高强度算法学习与创新实践。训练聚焦算法能力提升与创新应用,突破传统学术边界。活动配备专业编程显示器,邀请企业专家授课,学员反馈设备显著提升训练效率。活动旨在搭建赛事与产业需求的桥梁,探索IT人才培养新模式。

今日大家都在搜的词: