首页 > 业界 > 关键词  > AI图像生成器最新资讯  > 正文

英伟达推新AI图像生成器Perfusion :大小仅100KB、训练只需4分钟

2023-08-02 15:12 · 稿源:站长之家

站长之家(ChinaZ.com)8月2日 消息:在人工智能艺术创作工具快速发展的背景下,Nvidia 研究人员推出了一种创新的文本到图像个性化方法,称为Perfusion

与大AI图片生成模型不同的是,Perfusion 只有100KB大小,训练时间短,只需要4分钟。

image.png

Nvidia 和以色列特拉维夫大学共同撰写的一篇研究论文中介绍了所用的技术。尽管体积很小,但在特定版本的效率方面,它能够胜过Stability AI 的 Stable Diffusion v1.5、新发布的 Stable Diffusion XL (SDXL) 和 MidJourney 等领先的 AI 艺术生成器。

Perfusion 通过一种名为 “Key-Locking” 的新方法,在图像生成过程中将用户想要添加的新概念与更一般的类别联系起来,从而避免过度拟合。这样可以灵活地表达个性化的概念,同时保持其核心特征。与其他 AI 图像生成器相比,Perfusion 具有更高的视觉质量和与文本的对齐性。

image.png

此外,Perfusion 还可以将多个个性化概念结合在一张图像中,并允许用户在推理过程中通过调整一个100KB 的模型来控制视觉保真度和文本对齐性之间的平衡。与其他调整输出的方法相比,Perfusion 的体积更小,效果更好。

此研究与 Nvidia 在人工智能领域的发展方向相一致,该公司的股票在2023年大涨230%,其 GPU 在训练 AI 模型方面占据主导地位。

据分析,Perfusion 模型的创新性可能会使 Nvidia 在生成式人工智能领域获得优势。不过,Nvidia 目前只公布了研究论文,并承诺很快发布代码。

Perfusion 研究网址:

https://research.nvidia.com/labs/par/Perfusion/

举报

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • AI日报:阿里千问APP公测;Veo 3.1上线多图参考;超级小爱AI大模型“随心修图”上线

    本期AI日报聚焦多项技术突破:阿里千问APP公测,基于Qwen3模型对标ChatGPT;谷歌Veo 3.1支持三图融合生成8秒视频;小米推出"随心修图"功能与7B多模态模型Miloco;谷歌Flow集成Nano Banana模型实现智能抠图;多模态AI工具DeepEyesV2可执行代码与网络搜索;NotebookLM升级支持图像导入检索;JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温,产品迭代加速。

  • 百度搜索AI API全面开放 绝大多数结果由AI生成

    11月13日,百度创始人李彦宏在2025百度世界大会上宣布,百度搜索已实现绝大多数结果由AI生成,首条结果富媒体覆盖率高达70%。他强调,百度正通过AI技术深度重构搜索结果页,从传统文字链接模式转向以图片、视频等富媒体内容为核心的AI应用。李彦宏指出,百度是全球搜索引擎中对AI化改造最激进的,正引领行业进入全新时代。他还表示,企业需善用AI方能立于不败之地,个人也需掌握AI技能以掌控未来。目前,百度已通过AI+API开放搜索能力,与三星、荣耀、vivo等主流厂商建立合作,共同探索AI搜索的无限可能。

  • 小米超级小爱AI大模型推出随心修图功能

    小米宣布超级小爱AI大模型推出随心修图功能,用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式:在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求:超级小爱需v7.8.50及以上,相册编辑功能需v2.1及以上,相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级,支持全局多模态交互和自然语音搜索,提升使用体验。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • AI全面落地双11,淘宝走出一条和OpenAI不同的路

    ​今年的双11已经进入最后阶段,消费者和商家都有一个明显的感受是,AI的浓度真的很高,并且AI的全面落地应用,真的在改变传统用户购物、商家经营的链路。 消费者能感受到两个比较明显的变化:一个是AI导购开始走进真实的购物场景。淘宝为双11投入了六款AI导购类产品,其公布的数据显示,AI万能搜已经帮助消费者解决了5000万个消费需求。 另一个则是平台推荐的商品越

  • 50人团队、1亿美元ARR,AI PPT还在续写“神话”?

    AI 生成 PPT 可以说是去年的热门赛道,尤记得关于这类产品是否具有真正竞争力的热烈讨论,而2025年9月份的数据显示,赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且,今天官宣了由 a16z 领投的6800万美元 B 轮融资,融资后估值达到21亿美元。 而不仅 Gamma,根据 AI 产品榜数据,9月份,AIPPT 赛道的 Top3产品流量平均涨幅30%+,更有一款

  • 千问APP悄悄上线,阿里的AI超级入口也终于来了。

    阿里“千问”APP昨日在应用商店悄然上线,界面从通义APP的双色渐变变为简洁单色设计,功能大幅增强,支持Qwen全系列最新模型。此次品牌整合将阿里分散的AI触点统一为“千问”品牌,实现模型与产品名称对齐,让普通用户首次能在官方APP使用最强Qwen3-Max模型。APP默认开启联网搜索,集成图像编辑、视频通话等场景功能,通过智能意图识别实现一站式服务。这标志着阿里开始认真打技术+品牌两张牌,推动AI技术以更清晰方式触达用户。

  • 阿里千问APP宣布开启公测 号称打造最佳个人AI助手

    阿里巴巴11月17日启动“千问”项目,全面进军AI to C市场,标志着其在人工智能领域的新战略布局。APP公测版已上线各大应用商店,网页和PC版同步推出,国际版即将上线。基于Qwen模型在海外的影响力,“千问”将与ChatGPT等国际产品竞争,展现中国AI实力。Qwen系列模型全球下载量突破6亿次,性能超越Llama等,成为全球最强开源大模型。“千问”致力于打造“会聊天能办事”的个人AI助手,已具备生成报告、制作PPT等能力,未来计划接入地图、外卖、办公等生活场景,成为用户得力助手。

今日大家都在搜的词: