体积仅有100K！NVIDIA发布“最小”文生图模型

2023-08-02 20:13 · 稿源：快科技

快科技8月2日消息，近日，NVIDIA发布论文，公开了一个新的文生图”模型Perfusion。

与目前的文生图模型相比，Perfusion模型最大的特点就是小”它仅有100K，训练时间也仅需4分钟。

但虽然体积小得惊人，Perfusion生成的图片依旧有着不错的质量。

同时，该模型承接上文”的能力也相当出色，用户能够通过文本提示，逐步引导模型分布进行图像创作。

据悉，Perfusion模型由NVIDIA研究人员与以色列特拉维夫大学合作推出，效率目前处在业界第一梯队。

目前，NVIDIA仅在官网发布了Perfusion模型的相关论文，但官方已经承诺，将很快将该模型的代码发布。

体积仅有100K！NVIDIA发布“最小”文生图模型

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200

NvidiaCEO黄仁勋亲自将首个NvidiaDGXH200交付至旧金山的OpenAI办公室，这一举动彰显了人工智能行业两大巨头之间紧密的联系。OpenAI总裁兼联合创始人GregBrockman在推特上发布了一张照片，展示了这一事件，并在照片中还有OpenAICEOSamAltman。这些持续的发展无疑将受到行业专家和市场分析师的密切关注，因为它们可能为人工智能研究和应用设定新的标准。

Nvidia OpenAI DGXH200
英特尔Battlemage显卡即将亮相力争在假日季与Nvidia和AMD竞争

英特尔正在积极推进其下一代Battlemage系列专用显卡的开发，希望能够在今年年底前推出新品。英特尔计划在2023年黑色星期五前发布Battlemage显卡，以在假日购物季与Nvidia和AMD的新一代显卡产品展开竞争。消费者有望在假日购物季获得更多优质的显卡选择。

英特尔 Battlemage显卡 2023年
Check Point 与 NVIDIA 携手树立 AI 云基础设施大规模安全防护新标准

CheckPoint的全新AICloudProtect解决方案集成了NVIDIABlueField数据处理单元，可更好地保护AI云数据中心。在刚刚过去的三月，领先的云端AI网络安全平台提供商CheckPoint软件技术有限公司宣布与NVIDIA协作增强AI云基础设施安全防护。该综合型平台集多项云端技术于一身，包括确保工作空间安全的CheckPointHarmony、确保云安全的CheckPointCloudGuard、确保网络安全的CheckPointQuantum，以及支持协同式�

Check Point AI
戴尔存储解决方案Dell PowerScale：全球率先通过NVIDIA SuperPOD验证

DellPowerScale文件存储在功能强大的NVIDIADGXSuperPOD基础架构中提升AI工作负载性能。欢迎来到生成式人工智能时代，创新与效率相得益彰，并且充满无限可能。[1]基于戴尔科技集团的内部分析，2024年3月。

Dell PowerScale NVIDIA
AI文生图模型PixArt-sigma，可以生成4K分辨率图片

PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目，是一个强大的文本到图像生成模型，通过弥散Transformer进行弱到强训练，旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练，从能够更好地生成高质量的4K分辨率图像。在应用方面，PixArt-Σ是一款强大的文本到图像生成工具，具有广泛的应用场景，可以满足艺术、设计、游戏开发、营销

PixArt-sigma AI头条
Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

Hugging和英特尔发布了提高文生图模型空间一致性的方案，大幅提高了模型对提示词中空间关系的理解能力。在当前的将文字描述转换为图像的技术中，一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。他们还会开源这个模型和数据集，以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。

SPRIGHT 文生图
Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

StableDiffusion3API是一款先进的文本到图像生成系统，它在排版和提示遵循方面与DALL-E3和Midjourneyv6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器架构，使用不同的权重集来改善图像和语言的表示，从提高文本理解和拼写能力。StableDiffusion3API的使用场景示例在以下情况下，您可以使用StableDiffusion3API进行图像生成：生成广告宣传图创建游戏角色概念图辅助教学材料的图像制作产品特色和功能StableDiffusion3API具有以下特色和功能：文本到图像的生成多模态扩散变换器架构图像和语言的独立表示文本理解和拼写能力提升想要了解更多关于StableDiffusion3API的信息并开始您的图像生成之旅，请访问StableDiffusion3API官方网站。

StableDiffusion3API
清华团队国产“Sora”火了：生数科技发布视频大模型「Vidu」

在中关村论坛的未来人工智能先锋论坛中，生数科技与清华大学携手，正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。这款引领时代的视频大模型，其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。作为通用视觉模型，Vidu能够生成更加多样化、更长时长的视频内容，其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的�

人工智能视频模型 Diffusion
清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型，标志着中国在视频生成技术领域的重要进展。开源成就:2023年3月，团队开源了基于U-ViT架构的多模态扩散模型UniDiffuser，这是全球首个此类模型，验证了U-ViT架构的大规模可扩展性。

Vidu 大模型 AI头条
国际顶尖水平！首个Sora级国产自研视频大模型Vidu发布

在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型Vidu。这也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平在加速迭代提升中。除了在时长方面突破，Vidu在视频效果方面也实现了显著提升，主要包括：能够生成细节复杂的场景，且符合真实的物理规律；能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容；能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换；在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致；能够生成特有的中国元素，例如熊猫、龙等。

MetaCLIP:一种用于图像和文本数据的先进机器学习模型，专注于数据质量和透明度。

MetaCLIP是一个开源的机器学习模型，用于图像和文本的联合表示学习。它通过一个简单算法对CLIP数据进行筛选，不依赖于先前模型的过滤，从而提高了数据的质量和透明度。MetaCLIP的主要贡献包括无过滤的数据筛选、透明的训练数据分布、可扩展的算法和标准化的CLIP训练设置。该模型强调数据质量的重要性，并提供预训练模型，以支持研究人员和开发者进行控制实验和公平比较。

机器学习图像识别文本处理

AITown:一个虚拟城镇，AI角色在这里生活、聊天和社交。

AI Town是一个基于MIT许可的可部署启动套件，用于构建和定制您自己的AI城镇版本。这个项目受到了研究论文'Generative Agents: Interactive Simulacra of Human Behavior'的启发，旨在提供一个强大的基础平台，旨在被扩展。后端原生支持共享全局状态、事务和模拟引擎，适用于从简单的项目到可扩展的多人游戏。

AI 虚拟城镇聊天模拟

Vanna:通过自然语言生成SQL查询，简化数据库交互。

Vanna是一个使用Retrieval-Augmented Generation (RAG) 技术的开源Python框架，用于SQL生成和相关功能。它通过训练RAG模型，将自然语言问题转换为SQL查询，从而允许用户以提问的形式与数据库进行交互。Vanna的主要优点包括高准确度、安全性、私有性、自学习能力，并且支持任何SQL数据库。

SQL 自然语言处理数据库

Fal AI:AI图片生成式开发者平台

fal.ai 是一款面向开发者的生成媒体平台，提供了业界最快的推理引擎，可以让您以更低的成本运行扩散模型，创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施，为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整，确保您只为消耗的计算资源付费，实现了最佳的可扩展性和经济性。

生成媒体推理引擎开发者工具

Chat With Llama 3:一个开源的聊天机器人，能够解释概念、写诗、编程、解逻辑谜题。

Chat With Llama 3 是一个开源的聊天机器人，由Meta AI开发。它能够进行多种智能对话，包括解释复杂概念、创作诗歌、编写代码、解决逻辑谜题，甚至帮助用户给宠物起名。这个聊天机器人的主要优点在于它的多功能性和开源性，使其可以被广泛地应用于各种场景，并且可以根据需要进行定制和改进。

人工智能聊天机器人开源

AI图片生成与搜索:释放创意，一键生成或搜索超过200万张AI图片。

AI图片生成与搜索是一个在线平台，利用先进的人工智能技术，允许用户快速生成或搜索各种风格的AI图片。该技术的重要性在于它能够极大提高设计和创意工作的效率，同时降低成本。产品的主要优点包括丰富的图片资源、高效的生成速度、以及用户友好的界面。产品背景信息显示，这是一个面向广大创意工作者和设计师的工具，旨在帮助他们快速实现创意构想。目前，该产品提供免费试用，但具体价格和定位信息未在页面中提供。

AI技术图像生成创意工具

OpenPerplex:，您的知识门户

OpenPerplex是一个提供广泛知识资源的在线平台，它通过整合多种信息源，为用户提供了一个便捷的知识获取渠道。该产品以其丰富的信息量、高效的检索能力和友好的用户界面而受到用户的青睐。它不仅适用于个人学习，也适合专业人士进行深入研究。

知识获取信息检索在线学习

JavaVision是一个基于Java开发的全能视觉智能识别项目，它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能，还可以轻松扩展到其他领域，如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案，让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。

人工智能计算机视觉人脸识别

RMBG:利用AI技术，快速高效地从您的图片中移除背景。

AI-Powered Background Removal（AI驱动的背景移除）是一款基于AI技术的在线工具，它能够快速且高效地从用户上传的图片中移除背景。该工具的主要优点在于其隐私保护和本地执行能力，即图片处理在用户设备上完成，无需上传至互联网，保证了数据的安全性和处理速度。此外，作为一款开源且完全免费的工具，它极大地释放了用户的创造力，无需担心成本问题。

AI技术背景移除图片编辑

SearchForJohn:一个专注于搜索功能的在线工具

SearchForJohn是一个在线搜索工具，旨在帮助用户快速找到所需的信息。它以简洁的界面和高效的搜索算法为特点，为用户提供了一个便捷的信息检索平台。该产品的主要优点包括快速响应、准确的搜索结果和用户友好的界面设计。SearchForJohn的背景信息显示，它是由一群对搜索技术充满热情的开发者创建的，旨在解决用户在信息过载时代中寻找特定信息的难题。目前，该产品提供免费试用，但具体价格和定位信息未在页面上明确展示。

搜索信息检索用户友好

OpenBioLLM-Llama3-8B:一款专为生物医学领域设计的开源大型语言模型

OpenBioLLM-8B是由Saama AI Labs开发的先进开源语言模型，专为生物医学领域设计。该模型在大量高质量的生物医学数据上进行了微调，能够理解并生成具有领域特定准确性和流畅性的文字。它在生物医学基准测试中的表现超越了其他类似规模的开源生物医学语言模型，并与更大的专有和开源模型如GPT-3.5和Meditron-70B相比也展现出更好的结果。

生物医学自然语言处理大型语言模型

小悟空AI:一站式智能工具集，助力创作与运营。

小悟空是一个集成了多种智能工具的网站，旨在提高个人和团队的创作效率和运营效果。它通过提供诸如文章生成、视频脚本创作、笔记创作等多样化功能，满足不同用户在内容创作、个人表达、学习教育等方面的需求。产品背景基于人工智能技术，结合大数据分析，为用户提供个性化、高质量的服务。价格定位为免费试用，部分功能付费，以适应不同用户的需求。

智能创作个性化服务效率提升

Jasper Chat:AI聊天，感觉出奇地人性化

Jasper Chat是一个先进的人工智能聊天工具，它通过数十亿的文章、论坛、视频文字稿和网络内容的学习，能够就复杂主题进行详细对话。它的设计易于使用，能够记住对话内容，快速生成有用、适用且独特的内容，并且支持30多种语言。Jasper Chat不仅功能强大，而且使用起来充满乐趣，可以用于写作诗歌、讲笑话、制作剧本或生成日常星座运势等。

人工智能聊天机器人内容生成

Transcript Generator:获取任何YouTube视频的转录文本，并使用AI生成文章。

YouTube Transcript Generator可以下载任何YouTube视频的转录文本，并提供复制、下载、搜索和转换等功能。通过AI将YouTube转录文本转换为文章或博客帖子。

工具转录文章

Undress AI Tool:通过强大的照片脱衣工具，免费无缝地脱掉任何人的衣服。

Undress AI Tool是一款强大的深度脱衣应用程序，可以修改图像，使人们看起来像是没有穿衣服。它使用先进的技术准确地修改照片，生成DeepNude和AI成人图像。该工具的主要优点是可以快速准确地创建深度脱衣图像。

AI图像处理深度学习人工智能

TinderProfile.ai:用AI生成的图片，提高约会匹配度

TinderProfile.ai是一个使用AI技术分析用户自拍和照片，生成一组高质量、专业外观的图片，以确保在约会档案上留下良好的第一印象，增加用户获得更多匹配的机会。

约会社交媒体在线形象

OpenBioLLM-70B:先进的开源生物医学大型语言模型，专为医疗领域设计。

OpenBioLLM-70B是由Saama AI Labs开发的先进开源语言模型，专为生物医学领域设计。该模型在大量高质量的生物医学数据上进行了微调，能够理解和生成具有领域特定准确性和流畅性的文字。它在生物医学基准测试中展示了超越其他类似规模开源生物医学语言模型的优越性能，并且在与更大的专有和开源模型如GPT-4、Gemini、Medtron-70B、Med-PaLM-1和Med-PaLM-2的比较中也展现了更好的结果。

生物医学自然语言处理文本生成

Fun Gifts:个性化AI生成的桌面游戏，上传照片即可打印和邮寄一款独特的AI生成的个性化记忆卡片游戏。

FunGifts.AI是一个提供个性化AI生成的记忆游戏的平台。用户可以上传照片，通过AI生成独特的艺术作品，并打印成为一款记忆卡片游戏。这款游戏拥有30张卡片，印有训练人物的AI艺术作品。FunGifts.AI提供快速的打印和寄送服务，为用户打造一款独一无二的记忆游戏。

个性化记忆游戏 AI生成

Lawdeck:是一款利用人工智能技术实现快速创建、编辑和共享法律文件的在线平台。

Lawdeck是一款利用人工智能技术的在线法律平台，旨在自动化律师事务所的80%例行工作。它可以通过分析输入的详细信息，为用户提供最佳的法律策略，并生成完整的文件供用户编辑和共享。

法律人工智能自动化

ChatALL:与多个AI聊天机器人同时对话，发现最佳答案

ChatALL是一款桌面客户端软件，它允许用户同时与多个大型语言模型（LLMs）基础的AI聊天机器人进行对话，帮助用户发现最佳的对话结果。这款软件的主要优点在于其能够并发发送提示给不同的AI机器人，从而快速比较它们在不同任务上的表现，并找到最适合的机器人。产品背景信息显示，ChatALL适合于希望从LLMs中找到最佳答案或创作的专家、研究人员以及LLM应用的开发者。目前，ChatALL是免费提供给用户的。

体积仅有100K！NVIDIA发布“最小”文生图模型

今日大家都在搜的词：

热文

站长商机