Hugging Face文生成图模型aMUSEd 几秒钟内就能生成AI图像

2024-01-05 09:41 · 稿源：站长之家

划重点:
🔍 Hugging Face 推出的 aMUSEd 模型可以在几秒钟内生成图像，比其他竞争对手如 Stable Diffusion 更快。
🔍 aMUSEd 使用了一种轻量级的文本到图像模型，基于 Google 的 MUSE 模型。
🔍 aMUSEd 采用了 Masked Image Model （MIM）架构，这种架构减少了推理步骤，提高了生成速度和可解释性。

站长之家（ChinaZ.com）1月5日消息:AI 图像生成模型的一个最大问题就是速度:使用 ChatGPT 或 Stable Diffusion 生成一张图像可能需要几分钟的时间。甚至 Meta 首席执行官马克・扎克伯格在去年的 Meta Connect 大会上也抱怨了图像生成速度。

Hugging Face 团队正试图通过一款名为 aMUSEd 的新模型加快速度，该模型可以在短短几秒钟内生成图像。

这款轻量级的文本到图像模型基于谷歌的 MUSE 模型，参数规模约为8亿。aMUSEd 可以部署在移动设备等设备上。它的速度来自于它的构建方式。aMUSEd 采用了一种称为 Masked Image Model （MIM）的架构，而不是 Stable Diffusion 和其他图像生成模型中的潜在扩散。

Hugging Face 团队表示，MIM 减少了推理步骤，从而提高了模型的生成速度和可解释性。而且它的小尺寸也使得它运行速度很快。

aMUSEd 项目体验网址：https://top.aibase.com/tool/aamused

你可以通过 Hugging Face 上的演示来尝试 aMUSEd。该模型目前以研究预览版的形式提供，但使用 OpenRAIL 许可证，意味着可以进行实验或调整，同时也对商业适应性友好。

aMUSEd 生成的图像质量可以进一步提高，团队也公开承认了这一点，选择发布它以 “鼓励社区探索像 MIM 这样的非扩散框架用于图像生成”。

aMUSEd 模型可以进行零样本的图像修复，而 Stable Diffusion XL 无法做到，这是 Hugging Face 团队的说法。

关于如何在几秒钟内生成 AI 图像，aMUSEd 中的 MIM 方法类似于语言建模中使用的技术，将数据的某些部分隐藏（或屏蔽），模型学习预测这些隐藏部分。在 aMUSEd 的情况下，隐藏的是图像而不是文本。

在训练模型时，Hugging Face 团队使用一种名为 VQGAN（Vector Quantized Generative Adversarial Network）的工具，将输入图像转换为一系列标记。然后部分屏蔽图像标记，模型通过文本编码器基于未屏蔽部分和提示来预测屏蔽部分。在推理过程中，文本提示通过相同的文本编码器转换为模型理解的格式。aMUSEd 从一组随机屏蔽的标记开始，逐步完善图像。

在每一次完善过程中，模型预测图像的部分，保留其最自信的部分，并继续完善其余部分。经过一定步骤后，模型的预测通过 VQGAN 解码器处理，生成最终的图像。

aMUSEd 还可以在自定义数据集上进行微调。Hugging Face 展示了使用8位 Adam 优化器和 float16精度微调的模型，该过程使用了不到11GB 的 GPU VRAM。

可以在这里访问模型微调的训练脚本：

https://github.com/huggingface/diffusers/blob/main/examples/amused/train_amused.py

（举报）

相关推荐

关键词：

字节发布豆包1.5深度思考模型：“实拍级”图像生成

快科技4月17日消息，据报道，今日，在火山引擎AI创新巡展杭州站的现场，字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出，豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中，它能够精准高效地处理复杂问题；在创意写作等通用任务方面，同样表现出色。该模型采用MoE架构，总参数为200B，激�

豆包1.5深度思考模型火山引擎AI创新字节跳动技术发布
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP协议腾讯紧随其后近日，中国人工智能领域迎来技术标准的变革，ModelContextProtocol成为国内AI生态的事实标准。12.英伟达发布Llama3.1NemotronUltra253B，性能�

人工智能 MCP协议阿里巴巴
阿里开源通义新模型：指定首尾图片生成视频

快科技4月18日消息，据报道，阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面，智能生成720p高清过渡视频，为视频创作带来全新可能。该模型通过先进的深度学习算法，能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后，模型会智能分析画面中的视觉元素，包括物体形�

阿里巴巴通义万相视频生成技术
ChatGPT上线图库功能：可管理AI生成图片

快科技4月16日消息，据报道，OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能，该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放，包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口，就能进入一个直观的图像网格界面。在这个界面中，用户可以轻�

OpenAI ChatGPT Image
ChatGPT图像生成爆火！OpenAI CEO在线求助：急需10万块GPU

OpenAI近期推出的全新图像生成工具引发了热潮，用户使用ChatGPT即可创作出吉卜力等风格的AI艺术作品。这一功能不仅推动了ChatGPT用户数的创新高导致服务器负担过重，甚至一度限制了该功能的使用。SensorTower的数据显示，ChatGPT应用的全球下载量和每周活跃用户数分别较上周增长了11%和5%应用内购买收入则增加了6%。

OpenAI ChatGPT 图像生成
荐日销破千元！AI生成的3D梗图挂件，被我们卖爆了

先说结论:我们花15天做的AI3D挂件，在线下卖爆了，单日营收破千元!故事的开始，是因为我们发现把AI3D打印手办做成一门小生意的可行性越来越高，这也激发了我们的“搞钱基因”。再加上前不久新榜在上海举办了「新榜内容节」，一拍即合，我们于是做了一批模型去大会现场摆摊试水!最后结果还不错，单日最高收入突破1000元，是我们“创业史”上的一个高光表现。欢迎大家

AI 3D打印创业经验
荐挑战GPT-4o！AI文生图惊现黑马，国产团队HiDream如何逆袭？

HiDream是一款由国内团队开发的AI模型，擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解，尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片，并兼容多种应用领域，包括商业用途。尽管在某些特定要求下还需提升表现，但其潜力和实际效果已受到关注。

AI技术文生图开源模型
ChatGPT受限？这 8 款免费AI工具，也可以生成“吉卜力风格”图片

自从OpenAI将其先进的图像生成器集成到GPT-4o中后，SNS、网络社区等平台上掀起了一股“吉卜力风格头像”风潮。但随着版权争议的加剧，OpenAI给这项“吉卜力风格化”的图像转化功能加了一点点的限制。这款在线工具可以让用户进行编辑、增强、放大图像、将图像转换为视频等多样的操作，只需注册便可使用。

吉卜力风格图像生成版权争议
AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

【AI日报】栏目聚焦人工智能领域最新动态：1) OpenAI推出ChatGPT图像生成API，开发者可轻松集成AI绘图功能，已生成超7亿张图片；2) 谷歌Gemini月活用户突破3.5亿，但仍落后于ChatGPT的6亿用户；3) OpenAI预测2029年收入将达1250亿美元，AI代理业务成主要增长点；4) Ostris发布8B参数扩散模型Flex.2-preview，优化ComfyUI工作流；5) 英伟达推出多模态LLM模型Describe Anything，支持指定区域生成详细描�

OpenAI ChatGPT 图像生成

热文

3 天
7天

Hugging Face文生成图模型aMUSEd 几秒钟内就能生成AI图像

字节发布豆包1.5深度思考模型：“实拍级”图像生成

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

AI日报：阿里腾讯全面支持MCP协议；阶跃星辰多模态推理模型Step-R1-V-Mini；美图WHEE图像生成模型Miracle F1

阿里开源通义新模型：指定首尾图片生成视频

ChatGPT上线图库功能：可管理AI生成图片

ChatGPT图像生成爆火！OpenAI CEO在线求助：急需10万块GPU

荐日销破千元！AI生成的3D梗图挂件，被我们卖爆了

荐挑战GPT-4o！AI文生图惊现黑马，国产团队HiDream如何逆袭？

ChatGPT受限？这 8 款免费AI工具，也可以生成“吉卜力风格”图片

AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

热文

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机