首页 > AI头条  > 正文

Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

2025-05-06 10:51 · 来源: AIbase基地

在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。

QQ截图20250503104440.png

核心功能:全向参考与多元素支持

Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。AIbase梳理了其主要亮点:  

精准元素指定:用户可上传参考图像(如人物、动物、武器或车辆),通过提示明确要求“将此元素放入图像”,生成结果高度匹配参考特征。  

多样化支持:支持人物、动物、非人类生物、道具、车辆、物体,甚至整套角色造型或风格元素,适用范围远超V6的角色参考。  

多对象生成:支持单张图像包含多个对象(如两个角色)或上传多张参考图像,提示中明确描述即可生成复杂场景。  

灵活权重调整:通过“全向权重”(--ow)参数(范围0-1000,默认100)控制参考图像的影响强度,低权重(如--ow25)适合风格转换(如照片转动漫),高权重(如--ow400)确保面部或服装细节高度一致。  

生态兼容性:无缝集成个性化(Personalization)、风格化(--stylize)、风格参考(--sref)与情绪板(Moodboards),支持多模态创作。

AIbase注意到,社区测试显示,Omni-Reference将一张“赛博朋克战士”参考图像与“未来城市”场景结合,生成的人物面部、装备与光影高度一致,细节保留率达90%以上,远超V6角色参考的表现。

技术架构:V7专属与多模态融合

Omni-Reference作为Midjourney V7的旗舰功能,依托最新的生成模型与图像处理技术。AIbase分析,其核心技术包括:  

V7模型支持:仅在Midjourney V7(需手动切换至V7模式)上运行,结合235B参数模型(推测)提升图像细节与提示遵循度,优于V6.1的默认设置。  

多模态参考系统:通过CLIP-ViT与潜在扩散模型(LDM)解析参考图像,提取人物、物体或风格特征,支持跨模态生成(如实拍转插图)。  

动态权重控制:Omni-Weight(--ow)基于注意力机制动态调整参考影响,结合--stylize与--exp参数优化风格与表现力,避免高权重下的质量下降。  

多对象解析:利用分割模型(如SAM)与多提示权重(--iw、--sref URL1::2)处理复杂场景,确保多个参考对象在生成图像中的准确呈现。  

MCP潜力:支持Model Context Protocol(MCP),未来可与Qwen-Agent或F-Lite集成,扩展至动态场景生成与工具调用。

AIbase认为,Omni-Reference的多对象支持与权重调整使其超越了Gen-4References的静态图像混合,其与V7模型的深度融合进一步巩固了Midjourney在AI图像生成领域的领先地位。

应用场景:从艺术创作到商业设计

Omni-Reference的强大功能使其在多种场景中展现出广泛潜力。AIbase总结了其主要应用:  

叙事艺术与影视:生成一致性角色(如“科幻电影中的机器人”)或物体(如“中世纪剑”),适配故事板设计与概念艺术,助力Unity或Blender工作流。  

游戏开发:快速生成统一风格的角色、道具或场景(如“RPG游戏中的龙与城堡”),缩短资产制作周期,适合独立开发者与AAA工作室。  

广告与电商:将产品(如手表)或品牌Logo融入多样化场景(如“沙漠日落”),提升Shopify或Instagram营销视觉吸引力。  

数字艺术与NFT:创作一致性角色或风格化物体(如“蒸汽朋克飞船”),适配OpenSea等平台,满足收藏家需求。  

教育与虚拟现实:生成历史场景(如“古罗马战士与战车”)或VR交互对象,增强教学与沉浸式体验。

社区案例显示,一位艺术家利用Omni-Reference将“蒸汽朋克机械狗”与“维多利亚时代街道”结合,生成的图像保留了机械细节与环境氛围,创作时间缩短约60%。AIbase观察到,Omni-Reference与Genie2的3D环境生成结合,或可扩展至实时交互内容创作。

上手指南:快速部署与创作

AIbase了解到,Omni-Reference现已通过Midjourney V7(需Standard或Pro订阅)在Web与Discord平台开放,暂不支持Fast Mode、Draft Mode或Vary Region(V6.1)。用户可按以下步骤上手:  

切换V7模式:在Midjourney Web界面(midjourney.com)设置中选择V7,或在Discord输入--v7。  

上传参考图像:Web界面点击Imagine Bar的图像图标,拖拽PNG/JPEG图像至“Omni-Reference”区域;Discord输入--oref <图像URL>(需先上传至Discord或Imgur)。  

设置提示与权重:输入描述性提示(如“战士持剑站在雪山,赛博朋克风格”),添加--ow100(默认)或调整至25-400,结合--sref或--stylize增强风格。  

多对象生成:上传含多个对象的图像或多张图像,在提示中明确描述(如“战士与龙”),确保对象特征清晰。  

优化与反馈:若细节丢失,增加--ow(如400)或补充提示描述;开发者可通过Hugging Face社区(huggingface.co/midjourney)提交反馈。

社区建议为风格转换使用低权重(--ow25)并强化提示描述(如“动漫风格,蓝发”),高权重(--ow400)适合精确复制面部或服装。AIbase提醒,Omni-Reference不支持精细细节(如特定雀斑或Logo),需通过提示补充,且测试阶段可能存在不稳定性,建议关注Midjourney更新。

社区反响与改进方向

Omni-Reference发布后,社区对其一致性与多元素支持给予高度评价。开发者称其“将AI图像生成的一致性推向新高度,简化了复杂场景创作”,尤其在叙事艺术与游戏开发中的表现被认为是“颠覆性突破”。 然而,部分用户反馈多对象生成可能出现细节混淆,建议增强分割精度。社区还期待支持Niji6(动漫模型)、视频生成与实时3D兼容性。Midjourney回应称,Omni-Reference将每周迭代,计划优化多对象解析与细节保留,未来或支持Draft Mode与视频生成。AIbase预测,Omni-Reference可能与Claude的语音模式或NIM Operator2.0的微服务整合,构建从创作到部署的闭环生态。

未来展望:AI艺术创作的里程碑

Omni-Reference的推出标志着Midjourney在图像生成一致性与用户控制力上的重大飞跃。AIbase认为,其多元素支持与V7生态集成不仅挑战了F-Lite与Gen-4References的生成灵活性,还通过开源社区的反馈机制加速了技术迭代。社区已在探讨将其与MiMo-7B的推理能力或Genie2的3D生成结合,构建从静态图像到交互世界的综合平台。长期看,Omni-Reference可能演变为“AI创作市场”,提供共享参考模板与API服务,类似Hugging Face的生态模式。AIbase期待2025年Omni-Reference在视频支持、多模态交互与低资源优化上的突破。

  • 相关推荐
  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • iOS26的这五大“新功能”,我在安卓机上已经用了好几年!

    对于老 Android 用户来说,iOS 26 的很多“新功能”可能让人有种“似曾相识”的感觉……

  • 马斯克推出全新XChat:具备加密、音视频通话、消息自毁功能

    近年来,X一直在努力增加更多隐私保护和加密功能。 有报道曾称,马斯克计划将X这个平台变成一个万能应用”,提供包括收发消息、社交、点对点支付等一系列服务。 报道还称,这一愿景让人想起腾讯的微信,它是中国居民日常生活中无处不在的一部分。” 据悉,马斯克曾对微信等中国手机应用程序大加赞赏,还希望X成为一个功能完备”的约会网站和数字银行。

  • iPhone闹钟能自定义稍后提醒时间了 苹果iOS 26新功能上线

    近日,苹果公司发布了iOS26系统更新,其中一项看似细微却可能对用户日常生活产生显著影响的新功能引起了广泛关注——用户现在可以自定义闹钟稍后提醒的时间了。这一改变,或将悄然改变众多iPhone用户的起床习惯。 在之前的iOS版本中,iPhone闹钟的“稍后提醒”功能显得较为局限。用户一旦开启该功能,在闹钟响起时选择“稍后提醒”,闹钟便会在9分钟后再次响起,用户

  • 如何用即梦AI的音乐功能生成冥想放松音乐?

    即梦AI是一款强大的音乐生成工具,能轻松创作适合冥想放松的专属音乐。用户只需简单操作:1.访问官网进入音乐生成界面;2.选择"纯音乐"类型;3.输入具体需求描述(如舒缓钢琴曲搭配自然音效);4.选择古典/民谣等舒缓曲风;5.设置时长后点击生成。该工具特别适合需要助眠、冥想或放松的场景,能根据个性化需求快速生成专业级音乐作品,支持试听满意后直接下载使用。

  • 如何用豆包音乐生成功能创作AI歌曲?

    本文介绍如何利用豆包AI工具进行音乐创作。用户可通过APP或网页端(https://www.doubao.com/chat)使用该功能,按照固定句式输入创作需求:包括歌曲主题、音乐风格(如民谣、流行)、表达情绪(快乐、怀旧等)及音色选择(男声/女声)。系统会根据指令自动生成歌词并配乐,用户可即时查看歌词内容和播放生成的音乐。操作流程简单:打开豆包→选择音乐生成功能→填写创作指令→提交等

  • Baidu Steamer-I2V推动视频生成技术突破,擎舵平台赋能原生创意营销

    百度推出全球领先的视频生成模型Baidu Steamer-I2V,以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化,能将静态图像转化为连贯动态视频。百度营销平台迎来2周年,已服务超13万家企业,日均生产素材超10万+。在"AI驱动营销全链路升级"主题下,百度与核心代理商共同探讨AIGC技术突破与创意升级,推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势,同时突破创意边界,实现营销效果飞跃。未来百度将优化模型性能,拓展应用场景,推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

  • REDMI K Pad搭载顶级LCD屏!7大优势全面领先iPad mini

    REDMI K Pad将于本月发布,这是REDMI首款旗舰小平板,号称全面超越iPad mini。 据了解,REDMI K Pad采用8.8英寸3K LCD屏幕,按照REDMI品牌总经理王腾的说法,这块屏幕拥有行业顶级的规格。 王腾还晒出K Pad与iPad mini的屏幕规格对比图,前者无论是ppi、刷新率、全局亮度,还是触控采样率、护眼、湿手触控等,以及屏幕边框,都全面领先iPad mini。

  • 苹果全新AirTag即将推出:将有这几点提升

    近日,彭博社知名记者马克・古尔曼(Mark Gurman)在其《Power On》通讯中透露,传闻已久的苹果 AirTag2或已“基本准备就绪”,有望在近期与消费者见面。此前,古尔曼曾预测该产品将于2025年年中左右发布,而如今这一时间节点正逐步临近。 在通讯的问答环节中,古尔曼提到新款 AirTag 的筹备工作在过去几个月里一直在进行,但他同时表示,该产品的发布并不值得特别关注,在

今日大家都在搜的词: