首页 > AI头条  > 正文

NUS 推出 OmniConsistency:低成本实现图像风格化一致性,挑战 GPT-4o!

2025-06-03 09:14 · 来源: AIbase基地

近日,新加坡国立大学(NUS)团队发布了一个名为 “OmniConsistency” 的创新项目,旨在以极低的成本复现 OpenAI 的 GPT-4o 模型在图像风格化上的一致性。这项技术不仅解决了当前开源社区在图像风格化和一致性之间的矛盾,还为广大开发者提供了可行的解决方案。

近年来,图像风格化的技术不断发展,但在实际应用中,风格与内容一致性之间的平衡一直是个难题。为了增强风格化效果,很多模型往往牺牲了细节和语义的准确性。NUS 的研究团队认识到这个问题,他们的目标是实现风格化效果和一致性之间的完美结合。

image.png

OmniConsistency 的核心创新在于其独特的学习框架。与以往的方法不同,OmniConsistency 并不单纯依赖风格化结果的训练,而是通过配对的图像数据学习风格迁移中的一致性规律。该项目只用2600对高质量图像,经过500小时的 GPU 算力训练,便实现了令人惊艳的效果。如此低的成本大大降低了开发者的负担。

此外,OmniConsistency 采用了一种模块化架构,支持即插即用,兼容各种现有的风格化 LoRA(低秩适应)模块。这意味着,开发者可以轻松将 OmniConsistency 整合进他们的项目中,而不必担心与现有系统的冲突。

通过这项新技术,NUS 希望在开源生态中注入近乎商业级的能力,为更多的开发者和创作者提供便利。未来,OmniConsistency 可能会成为图像生成领域的重要工具,推动 AI 艺术创作的进一步发展。

项目地址:https://github.com/showlab/OmniConsistency

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • 端到端AEB正式上线!蔚来乐道Coconut椰子1.2.0版本开启推送

    5月29日,乐道汽车宣布端到端AEB系统正式上线,Coconut 1.2.0版本开启推送。本次升级重点包括:1)AEB系统防护范围扩展至240度,覆盖左侧60度高频盲区,基于海量实驾数据优化避险能力;2)车载AI语音上线麦当劳智能点餐服务,支持全程语音操作、随心换餐和到店时间预测;3)新增语音控制功能,可通过指令完成泊车影像开启、快速启动DeepSeek等操作;4)无麦K歌升级至2.0版本,新增AI伴唱、音效优化等功能。此次更新全面提升智能驾驶与车载娱乐体验。

  • 任天堂Switch 2确认支持普通USB鼠标!还不影响Joy-Con

    光荣特库摩在日前的直播中,展示了即将发售的《信长之野望新生 with威力加强版Complete Edition》的鼠标操作实机游玩视频,这也是首款确认支持鼠标操作的Switch 2游戏。 在演示中,《信长之野望新生with威力加强版 Complete Edition》的制作人兼总监刘迪使用普通鼠标操作Switch 2版游戏。 他介绍,Switch 2的Joy-Con 2支持鼠标功能,按下侧面的SL或SR键可切换鼠标模式,再次按下则切换回

  • TikTok 上线 Brand Consideration! 助力品牌将影响力转化为消费意向!

    TikTok推出Brand Consideration营销方案,聚焦消费者决策链中的"种草阶段"。数据显示,处于种草阶段的用户对品牌偏好度比认知阶段高28%,贡献46%的GMV,转化效率可达认知阶段用户的12倍。该方案通过AI分析用户全渠道行为数据,精准识别高意向人群,帮助品牌降低46%的获客成本。东南亚市场实践表明,结合达人内容和电商广告的组合投放,能有效提升18.5%的种草效率。TikTok的差异化优势在于:1)Market Scope监测平台实时分析人群增长趋势;2)Symphony AI工具快速生成高质量内容;3)TikTok One平台便捷对接优质达人。该方案解决了数字营销中长期存在的中间漏斗转化难题,实现从认知到购买的全链路优化。

  • 华为鸿蒙PC搭载方舟图像引擎:像素级遮挡剔除 多窗无压力

    快科技5月8日消息,华为首款鸿蒙PC今日正式发布,其搭载方舟图形引擎,带来炫酷的视效体验。据介绍,方舟图形引擎基于方天视窗,高并行低负载统一渲染引擎,基于人因,交互优先,多窗重载依然流畅。传统方案中,窗口无序绘制,负载随窗口数量线性增加重载卡顿。而方舟图形引擎基于人因的窗口排序绘制,焦点窗口保证高帧率高负载稳定流畅。此外,方舟图形引擎支�

  • OpenAI 推出首款成熟编程 AI 代理 Codex

    Codex 可复制开发环境,单任务耗时最长 30 分钟……

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • Checkout.com上海新址乔迁并宣布“支付++”战略:以模块创新与生态协同驱动全球支付升级

    2024年5月16日,全球数字支付服务商Checkout.com在上海启用新办公室,并发布"支付++"战略。该战略通过模块化技术架构和多元化生态联盟,助力企业破解跨境支付难题。Checkout.com亚太区总经理施伯雄表示,大中华区是其重点战略市场,将帮助中国企业应对全球化过程中的支付本地化、风控等挑战。公司推出"模块化+生态化"双引擎,商户可自由组合支付产品,实现技术民主化。现场展示了与Visa、支付宝等30余家合作伙伴构建的跨境支付生态矩阵。上海办公室将承担商户成功引擎和生态协作枢纽两大职能,为中国出海企业提供定制化支付解决方案。

  • 华擎官宣首款AMD极限超频OCF主板!Computex见

    快科技5月18日消息,华擎宣布将在2025年台北电脑展(Computex)上推出一系列新品,其中就包括了首款基于AMD平台的极限超频OCF主板X870E Taichi OCF。此前,华擎已经推出了基于英特尔Z890平台的OCF系列主板,并在DDR5内存超频记录中取得了不错的成绩,此次推出X870E Taichi OCF主板,将为AMD平台的超频爱好者带来新的选择。X870E Taichi OCF主板将配备两个DDR5内存DIMM插槽,这也算是超频主板�

今日大家都在搜的词: