首页 > 业界 > 关键词  > 正文

体积仅有100K!NVIDIA发布“最小”文生图模型

2023-08-02 20:13 · 稿源: 快科技

快科技8月2日消息, 近日,NVIDIA发布论文,公开了一个新的文生图”模型Perfusion。

与目前的文生图模型相比,Perfusion模型最大的特点就是小”它仅有100K,训练时间也仅需4分钟。

但虽然体积小得惊人,Perfusion生成的图片依旧有着不错的质量。

同时,该模型承接上文”的能力也相当出色,用户能够通过文本提示,逐步引导模型分布进行图像创作。

据悉,Perfusion模型由NVIDIA研究人员与以色列特拉维夫大学合作推出,效率目前处在业界第一梯队。

目前,NVIDIA仅在官网发布了Perfusion模型的相关论文,但官方已经承诺,将很快将该模型的代码发布。

体积仅有100K!NVIDIA发布“最小”文生图模型

举报

  • 相关推荐
  • 大家在看
  • Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200

    NvidiaCEO黄仁勋亲自将首个NvidiaDGXH200交付至旧金山的OpenAI办公室,这一举动彰显了人工智能行业两大巨头之间紧密的联系。OpenAI总裁兼联合创始人GregBrockman在推特上发布了一张照片,展示了这一事件,并在照片中还有OpenAICEOSamAltman。这些持续的发展无疑将受到行业专家和市场分析师的密切关注,因为它们可能为人工智能研究和应用设定新的标准。

  • 英特尔Battlemage显卡即将亮相 力争在假日季与Nvidia和AMD竞争

    英特尔正在积极推进其下一代Battlemage系列专用显卡的开发,希望能够在今年年底前推出新品。英特尔计划在2023年黑色星期五前发布Battlemage显卡,以在假日购物季与Nvidia和AMD的新一代显卡产品展开竞争。消费者有望在假日购物季获得更多优质的显卡选择。

  • Check Point 与 NVIDIA 携手树立 AI 云基础设施大规模安全防护新标准

    CheckPoint的全新AICloudProtect解决方案集成了NVIDIABlueField数据处理单元,可更好地保护AI云数据中心。在刚刚过去的三月,领先的云端AI网络安全平台提供商CheckPoint软件技术有限公司宣布与NVIDIA协作增强AI云基础设施安全防护。该综合型平台集多项云端技术于一身,包括确保工作空间安全的CheckPointHarmony、确保云安全的CheckPointCloudGuard、确保网络安全的CheckPointQuantum,以及支持协同式�

  • 戴尔存储解决方案Dell PowerScale:全球率先通过NVIDIA SuperPOD验证

    DellPowerScale文件存储在功能强大的NVIDIADGXSuperPOD基础架构中提升AI工作负载性能。欢迎来到生成式人工智能时代,创新与效率相得益彰,并且充满无限可能。[1]基于戴尔科技集团的内部分析,2024年3月。

  • AI文生图模型PixArt-sigma,可以生成4K分辨率

    PixArt-sigma由华为诺亚方舟实验室联合多个研究机构共同开发的项目,是一个强大的文本到图像生成模型,通过弥散Transformer进行弱到强训练,旨在实现4K分辨率的图像生成。PixArt-sigma采用了弥散Transformer进行弱到强训练,从能够更好地生成高质量的4K分辨率图像。在应用方面,PixArt-Σ是一款强大的文本到图像生成工具,具有广泛的应用场景,可以满足艺术、设计、游戏开发、营销

  • Hugging、英特尔发布文生图一致性解决方案——SPRIGHT

    Hugging和英特尔发布了提高文生图模型空间一致性的方案,大幅提高了模型对提示词中空间关系的理解能力。在当前的将文字描述转换为图像的技术中,一个关键短板是它们往往无法精准地生成与文字提示中所描述的空间关系相符的图像。他们还会开源这个模型和数据集,以便其他研究者和开发者能够利用这些资源来进一步提高文生图模型的性能。

  • Stable Diffusion 3 API申请入口 AI文生图API官方免费申请地址

    StableDiffusion3API是一款先进的文本到图像生成系统,它在排版和提示遵循方面与DALL-E3和Midjourneyv6等顶尖系统相匹敌或更优。该系统采用新的多模态扩散变换器架构,使用不同的权重集来改善图像和语言的表示,从提高文本理解和拼写能力。StableDiffusion3API的使用场景示例在以下情况下,您可以使用StableDiffusion3API进行图像生成:生成广告宣传图创建游戏角色概念图辅助教学材料的图像制作产品特色和功能StableDiffusion3API具有以下特色和功能:文本到图像的生成多模态扩散变换器架构图像和语言的独立表示文本理解和拼写能力提升想要了解更多关于StableDiffusion3API的信息并开始您的图像生成之旅,请访问StableDiffusion3API官方网站。

  • 清华团队国产“Sora”火了:生数科技发布视频大模型Vidu」

    在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。这款引领时代的视频大模型,其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。作为通用视觉模型,Vidu能够生成更加多样化、更长时长的视频内容,其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的�

  • 清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

    生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型,标志着中国在视频生成技术领域的重要进展。开源成就:2023年3月,团队开源了基于U-ViT架构的多模态扩散模型UniDiffuser,这是全球首个此类模型,验证了U-ViT架构的大规模可扩展性。

  • 国际顶尖水平!首个Sora级国产自研视频大模型Vidu发布

    在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型Vidu。这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平在加速迭代提升中。除了在时长方面突破,Vidu在视频效果方面也实现了显著提升,主要包括:能够生成细节复杂的场景,且符合真实的物理规律;能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容;能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换;在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致;能够生成特有的中国元素,例如熊猫、龙等。

今日大家都在搜的词:

热文

  • 3 天
  • 7天