首页 > 业界 > 关键词  > StableDiffusion最新资讯  > 正文

Stable Diffusion模型发布新版本:生成图像以假乱真

2023-06-24 17:28 · 稿源: 快科技

快科技6月24日消息,近日,Stability AI官方宣布,推出SDXL0.9版本更新,对Stable Diffusion进行了优化。

AI绘画 赛博朋克 元宇宙 女性 酷 (1)

与此前的SDXL Beta相比,新版本下的Stable Diffusion模型在图片的生成上有着更为明显的优势。

从官方提供的对比图片可以看出,新版本生成的图片在质感上更加逼真,一定程度上甚至可以做到以假乱真。

同时,新版本终于能够正确的理解人类的手”,从而正常生成五指,进一步提升了图片的真实性。

其他方面,Stability AI表示SDXL0.9版本配置要求和此前相同,需要16GB内存和NVIDIA RTX20系列及更高显卡(需8GB以上显存),支持Win10、Win11与Linux 发行版。

需要注意的是,Stability AI计划在今年7月推出SDCL的1.0版本,值得期待。

举报

  • 相关推荐
  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • QQ 9.1.70新版本开启测试,可支持微信小程序

    腾讯QQ9.1.70版本开始小范围测试支持运行微信小程序功能。开发者无需重复开发,即可将小程序同时发布到微信和QQ双端,用户也无需跨应用切换。首次使用需跳转微信授权,后续可直接在QQ内流畅运行各类微信小程序。业内分析认为,这是QQ持续优化核心功能、打通腾讯生态优势的重要举措,既能降低开发者成本,又能为用户提供更统一便捷的体验,未来还可能进一步整合更多腾讯系产品能力。

  • GhibliTattoo发布!AI纹身生成,吉卜力风格专属定制!

    这款工具专为吉卜力粉丝、纹身爱好者与创意设计师打造。通过文本提示或图片上传,即可生成高分辨率、透明背景的吉卜力风格纹身设计……

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 苹果高管:我们的AI聊天机器人,足以媲美ChatGPT新版本

    据员工透露,苹果目前内部测试的聊天机器人在过去六个月里取得了重大进展,某些高管甚至认为它已赶上了 ChatGPT 的最新版本……

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • 刚刚,OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

    OpenAI发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持精细控制图像敏感度、生成效率、背景、输出格式等参数,并集成吉卜力模式。Adobe、Figma等企业已将其应用于产品中。API支持批量生成、蒙版编辑、透明度调整等高级功能,图像生成成本从0.02-0.19美元/张不等。CEO Sam Altman表示该模型与ChatGPT版本差异显著,开发者可通过API实现更多创意场景。新模型在�

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频”

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • vivo Vision混合现实头显宣布下半年发布

    vivo宣布其MR设备vivo Vision将于今年下半年正式发布,引发市场广泛关注。该设备可能与vivo X300系列手机同步上市,形成产品矩阵效应。Vision头显设计借鉴夏普Vision Pro风格,采用曲面抛光镜片,集成了多颗摄像头,但具体技术参数尚未公开。此布局被视为vivo战略转型的关键一步,旨在通过MR技术强化实时空间计算能力,为基础的未来机器人物联网应用奠定基础。vivo计划打造一套视觉感知系统,重点提升机器人的视觉捕捉、处理、理解、空间建模及边缘计算等五大维度的智能化水平。这一战略定位依赖于依图科技在AI大模型与混合现实技术领域的积累,vivo加速布局机器人赛道的相关落地措施已进入实质推进阶段。伴随Vision头显的发布,行业或将迎来新一轮技术竞争。这被寄予厚望的设备能否在空间计算领域实现突破,仍需等待市场验证。