ControlNet作者推新项目Omost 一句话变构图小作文再也不用为写提示词头疼了

2024-06-03 09:46 · 稿源：站长之家

站长之家（ChinaZ.com）6月3日消息:近日，ControlNet的作者推出了一个全新的项目——Omost。这个项目对现有图像模型的提示词理解有着巨大的帮助。通过很短的提示词，就可以生成非常详细并且空间表现很准确的图片。

Omost通过预定义的位置、偏移量和区域三大参数来简化图像元素的描述。这使得用户能够更直观地指定图像中各个元素的位置和大小，从而生成高质量、符合预期的图像。

使用Omost，你只需要输入简单的提示词，LLM就可以生成图像每个区域的简单提示和位置信息。然后针对图像九宫格的简单提示词继续扩展，保证了每一部分都有非常详细的描述。

比如，我输入创建一个梦幻的空中城堡，然后它给我返回了一段非常详细的图像描述:

这张照片展示了一座漂浮在高空的梦幻空中城堡，
“城堡完全由玻璃和闪闪发光的金属制成，反射出耀眼的阳光。”，
“精致的桥梁连接着各种塔，每座塔都装饰着复杂的雕刻和发光的符文。”，
“城堡周围的天空是柔和柔和色调的渐变，从黎明的粉红色过渡到黄昏的蓝色。”，
“下面是郁郁葱葱的森林、波光粼粼的河流和连绵起伏的山丘。”，
“整个场景笼罩在一种神奇的氛围中，柔和空灵的光束照亮了城堡，营造出一种奇妙和迷人的感觉。”

然后点击生成图像，它就会将上面的提示转化为图像返给你:

效果还不错。我们也可以将提示词复制到MJ中生成。效果如下:

更牛逼的是，Omost已经完成的图像整体布局可以保留，如果你想修改画面中的某个元素，也只需要一句提示词即可。比如你原来的画面主体是龙，你可以直接把龙变成恐龙。

项目亮点:

自动扩展提示词:Omost能够将简单的提示词拆解成详细的描述，从图像整体到局部元素的位置和大小均能详细说明。例如输入“a funny cartoon batman fights joker”，系统会生成蝙蝠侠与小丑战斗的完整图像。
高灵活性:生成的图像布局可以保留，用户可以通过简单的提示词对图像中的某个元素进行修改。比如，将龙变成恐龙，系统会根据新提示生成修改后的图像。
图像位置编码:Omost通过将图像划分为729个不同的位置来简化图像元素的描述。每个位置包括预定义的参数，如位置、偏移量和区域，确保图像生成的准确性和细致度。
子提示系统:所有Omost LLM都经过训练，可以提供严格定义的“子提示”，这些子提示可以独立描述事物，并任意组合形成完整的提示。这种设计提高了提示词的灵活性和准确性。
注意力操纵:Omost使用注意力分数调整技术来控制图像生成过程中的区域关注度，实现更精细的图像生成。通过调整注意力分数，Omost能够生成符合提示词描述的图像元素。
提示前缀树:Omost引入提示前缀树技术，通过合并子提示来改进提示理解和描述。例如，可以将路径“a cat and a dog. the cat on the sofa”作为提示，从而生成相应图像。

Omost的实现和使用

Omost项目基于Llama3和Phi3变体模型，用户可以通过提供简单的提示词来生成复杂的图像。以下是该项目的几个关键组件:

位置和偏移量:将图像划分为9个位置，每个位置进一步划分为81个偏移量，共有729个边界框，用于描述图像元素的位置。
distance_to_viewer和HTML_web_color_name:用于调整图像元素的视觉表现，通过组合这些参数可以生成粗略的图像构图。
注意力操纵:基于注意力分数操作的baseline渲染器，通过调整注意力分数来控制不同区域的模型关注度。

应用和前景

Omost技术的推出，不仅简化了提示词的编写，还提高了图像生成的精确度和灵活性。其应用场景包括但不限于AI绘画、图像设计、广告创意、教育等领域。用户可以通过简单的提示词生成复杂的图像，为创意设计提供了强大的工具支持。

项目页:https://top.aibase.com/tool/omost

试玩地址:https://huggingface.co/spaces/lllyasviel/Omost

（举报）

相关推荐

关键词：

智检加速：AI云测试如何为香港企业 IT 项目减负40%人力成本

香港企业在App研发中面临高昂人力成本与复杂技术栈挑战，导致测试效率低、交付缓慢。Testin云测通过AI驱动的自动化测试方案，整合云端资源与专业服务，实现降本增效：硬件投入优化50%，人力成本降低40%；AI脚本生成技术提升测试效率60%，支持跨平台复用；精准OCR识别助力迭代周期缩短50%。聚焦金融、政企、交通等重点行业，提供符合国际标准的安全测试保障，助力企业从人力密集型向技术密集型转型，以更高质量、更快速度赢得市场竞争。

商业痛点香港企业质量保证
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

某互联网大厂品牌总监分享：投入200万SEO使"企业级CRM"关键词在Google排名第一，但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时，AI回答中根本没有该品牌。更值得警惕的是，竞品不仅被提及，还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区：企业不知道AI如何"看待"自身品牌。数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道，而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念，通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力，并给出五步实施流程：建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明，系统化GEO优化能在3个月内提升品牌提及率33个百分点，证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。
字节旗下AI编程工具TRAE SOLO发布面向所有用户开放

字节跳动AI编程工具TRAE SOLO正式版发布，面向国际用户开放。该工具提供IDE和SOLO两种开发模式：IDE模式在保留原有流程基础上增强智能问答、代码补全等AI能力；SOLO模式以AI为主导，能理解开发目标、调度工具并独立完成从需求分析到代码实现的全流程。这标志着AI编程从工具增强迈入流程重构新阶段，实现覆盖软件开发全流程的高度自动化。

AI编程工具 TRAE SOLO
TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

TabTab是一款全链路AI数据分析助手，核心功能包括多源数据连接（支持文档、数据库、电商平台等）、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互，降低分析门槛，让非技术人员也能快速完成客户洞察、销售业绩等分析，显著提升效率。产品定位中立，致力于构建多元化AI效率提升生态。

数据驱动效率提升智能体
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

在“软件定义汽车”浪潮下，智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而，传统软件测试模式成本高、耗时长，难以覆盖复杂场景，易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破：需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式，测试工程师角色转向质量策略师。到2027年，超80%企业将集成AI测试工具，汽车行业2025年成为转型关键节点。

软件定义汽车智能汽车座舱体验
50人团队、1亿美元ARR，AI PPT还在续写“神话”？

AI 生成 PPT 可以说是去年的热门赛道，尤记得关于这类产品是否具有真正竞争力的热烈讨论，而2025年9月份的数据显示，赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且，今天官宣了由 a16z 领投的6800万美元 B 轮融资，融资后估值达到21亿美元。而不仅 Gamma，根据 AI 产品榜数据，9月份，AIPPT 赛道的 Top3产品流量平均涨幅30%+，更有一款

AI生成PPT Gamma融资 AIPPT赛道
从“实现需求”到“共创价值”：AI Native时代需要什么样的工程师团队？

在1024程序员节，小红书技术副总裁风笛出席CCF工程师文化日五周年庆典，分享AI时代技术团队转型方向。他指出传统开发模式下工程师仅1/3时间编码，其余被会议沟通挤占，导致技术成长受阻、创新力下降。提出AI Native时代需重构协作模式：通过任务导向的扁平化组织，让工程师从需求执行者转变为价值创造者。以48小时上线翻译功能为例，展示新型协作效能。强调AI不会取代工程师，而是将其角色提升至系统定义和复杂性管理的新高度。

1024程序员节工程师文化 AI
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑

今日大家都在搜的词：

热文

3 天
7天

ControlNet作者推新项目Omost 一句话变构图小作文再也不用为写提示词头疼了

智检加速：AI云测试如何为香港企业 IT 项目减负40%人力成本

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

字节旗下AI编程工具TRAE SOLO发布面向所有用户开放

TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

软件定义汽车的质量革命：AI Agent如何终结座舱OTA的“路测噩梦”

50人团队、1亿美元ARR，AI PPT还在续写“神话”？

从“实现需求”到“共创价值”：AI Native时代需要什么样的工程师团队？

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

小米超级小爱AI大模型推出随心修图功能

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

阿里巴巴回应千问崩了：状态良好欢迎来问

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能

站长商机

ControlNet作者推新项目Omost 一句话变构图小作文 再也不用为写提示词头疼了

今日大家都在搜的词：

热文

站长商机

ControlNet作者推新项目Omost 一句话变构图小作文再也不用为写提示词头疼了