首页 > 业界 > 关键词  > 英伟达最新资讯  > 正文

英伟达发布新型 Perfusion AI 图像生成器:只需 100KB 模型大小 就可创造性地描绘物体

2023-08-02 15:34 · 稿源:站长之家

站长之家(ChinaZ.com) 8月2日消息:人工智能艺术创作工具的快速发展中,英伟达的研究人员推出了一种创新的文本到图像个性化方法,名为 Perfusion。但与竞争对手相比,它并不是一个价值百万美元的超级大型模型。Perfusion 的大小只有 100KB,训练时间只需 4 分钟,能够在表达个性化概念时保持其特性,同时具有显著的创造性和灵活性。

baseline_comparison_single_concept.jpg

图片来自Nvidia

Perfusion 是由英伟达与以色列的特拉维夫大学合作撰写的研究论文中介绍的。尽管其大小较小,但在特定版本的效率方面,它能够胜过像 Stability AI的 Stable Diffusion v1.5. 新发布的 Stable Diffusion XL (SDXL) 和 MidJourney 等领先的 AI 艺术生成器。

Perfusion 中的主要新想法被称为「Key-Locking」。它通过在图像生成过程中将用户想要添加的新概念(如具体的猫或椅子)与更一般的类别相连接。例如,将这只猫与更广泛的「猫科动物」的概念联系起来。

这有助于避免过拟合,即模型过于狭窄地针对训练样例进行调整。过拟合使得 AI 难以生成新的创造性版本。

通过将新猫与猫科动物的一般概念联系起来,模型可以以许多不同的姿势、外观和环境来描绘猫。但它仍然保留了基本的「猫性」,使它看起来像预期的猫的模样,而不是任何随机的猫科动物。

因此,简单来说,Key-Locking 能够让 AI 灵活地表达个性化的概念,同时保持其核心身份。就像给艺术家以下指导:「画一下我的猫汤姆,它正在睡觉、玩耍毛线和嗅花。」

为什么英伟达认为「少即是多」

Perfusion 还可以将多个个性化的概念合并到单个图像中,实现自然互动,而不像现有工具那样独立学习概念。用户可以通过文本提示引导图像创作过程,合并像具体的猫和椅子这样的概念。

Perfusion 提供了一个显著的功能,允许用户在推理期间通过调整一个只有 100KB 大小的模型控制视觉保真度(图像)和文本对齐度(提示)之间的平衡。这种能力使用户能够轻松探索 Pareto 前沿(文本相似度与图像相似度之间的权衡),并选择符合其特定需求的最优平衡,而无需重新训练。值得注意的是,对模型进行训练需要一些技巧。

过多地关注模型的复制会导致模型一遍又一遍地产生相同的输出,并且使其过于严格地遵循提示而没有自由通常会产生不好的结果。灵活调整生成器与提示的接近程度是是重要的定制组件。

其他 AI 图像生成器也有让用户微调输出的方法,但它们体积庞大。以 Stable Diffusion 中常用的微调方法 LoRA 为例,它可以增加几十兆字节甚至超过 1GB 的应用程序大小。另一种方法是文本反转嵌入,它体积较小,但准确度较低。目前最准确的技术之一 Dreambooth 训练的模型体积达 2GB 以上。

相比之下,英伟达表示,与前面提到的领先人工智能技术相比,Perfusion 可产生卓越的视觉质量和提示对齐效果。与微调整个模型的方法相比,超高效的大小使得在微调生成图像的方式时只更新所需的部分成为可能。

这项研究与英伟达日益专注于人工智能的发展方向保持一致。随着英伟达的 GPU 继续主导 AI 模型的训练,该公司的股价今年已经上涨了 230%。在 Anthropic、谷歌、微软和百度等公司投入数十亿美元进行生成 AI 的过程中,英伟达的创新 Perfusion 模型可能会给它带来优势。

目前,英伟达只是发表了研究论文,并承诺很快发布代码。

英伟达 Perfusion 模型:

https://research.nvidia.com/labs/par/Perfusion/

举报

  • 相关推荐
  • 厚植AI创新沃土!麒麟信安打造人工智能孵化器,赋能创业梦想

    10月28日,麒麟信安人工智能孵化器在长沙启动,旨在汇聚AI领域人才、技术与资本,构建开放协同的创新生态。该项目获湖南省多部门支持,已吸引60余个项目入围,组建了首批30余位专家导师团,并与多家顶尖机构共建联合体,通过政策扶持、资本对接等多维度赋能,培育优质AI项目在湘落地发展,助力区域打造人工智能产业创新高地。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • 共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

    10月28日,AtomGit平台在北京国家会议中心举行升级发布会,正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞,强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源,打造开放中立的基础设施,计划于11月21日正式上线。华为、百度等企业代表分享了开源实践,多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

  • 卖家精灵加入中国人工智能产业发展联盟(AIIA),加速AI赋能跨境电商

    卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力,近日正式加入中国人工智能产业发展联盟(AIIA),成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可,未来将携手联盟推动AI技术研发与产业化,助力中国品牌全球化。依托八年积累的海量电商数据与算法体系,卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案,服务超百万跨境卖家,显著提升运营效率与决策精准度。

  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • 行业首个!海尔冰箱获ISO/IEC 42001人工智能管理体系认证

    2025年10月,海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业,标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程,确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品,推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术,为用户提供更安全、智能的健康饮食体验。

  • 人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

    科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲,强调高质量数据集是人工智能产业决胜关键。他指出,算力、算法和数据构成AI三大要素,而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施,通过集中管理、分散赋能模式,打通数据采集、治理到AI训练全链路,推动产业智能化升级。该平台已在制造、金融等领域落地,助力企业释放数据要素价值,实现弯道超车。

  • 英伟达总市值突破5万亿美元

    10月30日,英伟达股价上涨3.2%,市值突破5万亿美元,成为全球首家达此里程碑的公司。创始人黄仁勋个人财富随之突破1800亿美元,跻身全球富豪榜第八位。今年以来,英伟达股价累计上涨54%,市值从4万亿增至5万亿仅用113天。公司透露,Blackwell及新一代Rubin芯片正推动销售增长。美国银行将目标价上调至275美元,预示股价或再涨30%,市场对其前景持续乐观。

  • 美股4万亿美元市值上市公司已达3家 苹果、微软、英伟达组成三巨头

    10月28日,苹果与微软股价同步上涨,双双突破4万亿美元市值大关,与超4.6万亿美元的英伟达共同构成全球市值最高的“三巨头”格局。微软因与OpenAI资本重组推动股价涨超3%,持有后者价值1350亿美元股权;苹果则凭借新一代iPhone强劲需求实现股价逆袭,年内首度由跌转升。英伟达仍以最高市值稳居全球第一,凸显全球科技产业对算力需求的爆发式增长。

  • 十方融海小智AI:以科技温度诠释“人工智能+”时代的人文关怀

    近日,小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目,更展现了AI技术的情感温度。十方融海团队迅速响应,跨越600公里为女孩送上定制版机器人作为生日礼物,并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵,彰显科技企业的人文关怀与社会担当,成为“技术向善”的生动实践。

今日大家都在搜的词: