首页 > 业界 > 关键词  > 深度文本最新资讯  > 正文

Stability AI新文本到图像模型DeepFloyd IF 拥有深度文本理解能力

2023-05-08 15:29 · 稿源:站长之家

站长之家(ChinaZ.com)5月8日 消息:Stability AI及其多模态 AI 研究实验室 DeepFloyd 宣布发布 DeepFloyd IF 研究版,这是一种尖端的文本到图像级联像素扩散模型,并且可以智能地将文本集成到图像中 该模型最初仅限于非商业、研究许可使用场景,但计划在未来发布开源版本。

image.png

DeepFloyd IF 拥有几个显着的特点,包括:

  • 深度文本指提示词理解能力:该模型使用T5-XXL-1.1作为文本编码器,具有多个文本-图像交叉注意力层,确保提示和图像之间更好的对齐。

  • 连贯清晰的文本和生成的图像: DeepFloyd IF 可以生成包含具有不同属性和空间关系的对象的图像。

  • 高度逼真:该模型在 COCO 数据集上取得了令人印象深刻的零样本 FID 分数6.66。

  • 纵横比转换:该模型可以生成非标准纵横比的图像,包括垂直、水平和标准方形纵横比。

  • 零样本迁移能力实现图像到图像的转换:该模型可以修改图像的样式、图案和细节,同时保留其基本形式。

以下是 DeepFloyd IF 创建的一些示例:

image.png

DeepFloyd IF 的模块化、级联、像素扩散设计由多个协同交互的神经模块组成。该模型在像素空间中工作,使用不同分辨率的单独训练模型以级联方式处理高分辨率数据。这涉及生成低分辨率样本的基本模型和生成高分辨率图像的连续超分辨率模型。

该模型是在包含10亿(图像、文本)对的自定义高质量 LAION-A 数据集上训练的,LAION-A 数据集是 LAION-5B 数据集英文部分的一个子集。DeepFloyd 的自定义过滤器用于删除带水印、NSFW 和其他不当内容。

image.png

最初,DeepFloyd IF 是根据研究许可发布的。研究人员旨在鼓励跨领域(如艺术、设计、讲故事、虚拟现实和可访问性)开发新颖的应用程序。为了激发潜在的研究,他们提出了几个技术、学术和伦理研究问题。

技术研究问题包括:

  • 优化 IF 模型以增强性能、可扩展性和效率。

  • 通过改进抽样、指导或微调模型来提高输出质量。

  • 将用于修改稳定扩散输出的技术应用到 DeepFloyd IF。

学术研究问题包括:

  • 探索预训练对迁移学习的作用。

  • 增强模型对图像生成的控制。

  • 通过集成多种模式,将模型的功能扩展到文本到图像合成之外。

  • 评估模型的可解释性,以提高对生成图像视觉特征的理解。

伦理研究问题包括:

  • 识别和减轻 DeepFloyd IF 中的偏差。

  • 评估模型对社交媒体和内容生成的影响。

  • 开发利用该模型的有效假图像检测器。

DeepFloyd 's hugs Face空间网址: https://huggingface.co/DeepFloyd。

DeepFloyd IF 网址:https://deepfloyd.ai/deepfloyd-if

DeepFloyd IF GitHub项目地址:https://github.com/deep-floyd/IF

举报

  • 相关推荐
  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • GEO排名查询工具深度测评:AI搜索时代的品牌可见度优化指南

    随着ChatGPT等AI搜索平台兴起,用户不再点击传统搜索结果链接,而是直接获取AI生成的答案。这催生了生成引擎优化(GEO)概念,其核心是提升品牌在AI回答中的提及率和推荐顺序。本文通过实测AIBase工具,总结出四大GEO优化策略:优化产品信息的AI可读性、针对性回应用户问题、建立持续监控机制、制定跨平台差异化策略。专业排名监控工具可帮助品牌系统追踪AI搜索表现,在流量变革中抢占先机。

  • 深度测评AIBase GEO排名查询工具,实现AI搜索排名提升

    随着大语言模型和生成式AI普及,品牌可见度竞争已转向AI问答界面——这就是生成引擎优化(GEO)。传统SEO关注搜索列表排名,而GEO要求品牌被AI模型在回答用户问题时“推荐”或“提及”。AIBase推出的GEO排名查询工具,通过覆盖五大主流AI平台、模拟真实用户场景、精准统计推荐频次与排名,帮助企业监测品牌在AI问答中的表现,为提升AI搜索排名提供策略指导。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 荣耀年度旗舰上新,火山引擎助力“YOYO助理”多模态智慧再升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,支持图文、语音、视频输入及多样化内容输出,结合火山引擎的豆包大模型技术,提供联网问答、智能识图、创意修图、出行规划等场景服务,实现“有问必答、答则精准”的智慧体验,成为用户贴身的“万能管家”。

今日大家都在搜的词: