首页 > AI头条  > 正文

中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini

2025-11-07 09:41 · 来源: AIbase基地

在图像编辑领域,一项颠覆性的技术正在改变游戏规则!兔展智能与北京大学的 UniWorld 团队推出了新一代图像编辑模型 ——UniWorld-V2。这一模型不仅在图像处理的细节控制上超越了 Nano Banana,更在理解中文指令方面表现出色。

UniWorld-V2基于一种创新的视觉强化学习框架 ——UniWorld-R1,该框架首次将强化学习策略优化应用于图像编辑,显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1的设计旨在解决数据过拟合和泛化能力差的问题,让模型在面临多样化编辑指令时能够更好地响应。

image.png

举个例子,当用户要求 AI 将一位女生的手势改为 “OK” 时,UniWorld-V2能够精准理解并修改。与之相比,Nano Banana 则未能准确捕捉用户的意图。更令人惊叹的是,在海报编辑示例中,UniWorld-V2能够渲染出复杂的中文艺术字体,如 “月满中秋”,确保效果清晰且语义准确。

该模型的精细化控制力同样令人瞩目。通过简单的框选操作,用户可以指定编辑区域,实现高难度的调整,比如将特定物体移出框外。此外,UniWorld-V2还能在光影处理方面展现出色的能力,能够自然地将物体融入场景,提升整体的和谐感。

image.png

在测试基准 GEdit-Bench 和 ImgEdit 中,UniWorld-V2分别以7.83和4.49的高分遥遥领先其他知名模型,如 OpenAI 的 GPT-Image-1和 Gemini2.0。这些成绩的背后,得益于 UniWorld-R1框架的强大通用性,它不仅提升了 UniWorld-V2的性能,也为其他模型带来了显著改进。

UniWorld-R1的论文、代码和模型已在 GitHub 和 Hugging Face 平台上公开,为未来的研究打下基础。这一技术的发布,不仅推动了多模态领域的发展,也为图像编辑技术带来了新的可能性。

image.png

论文地址:

https://arxiv.org/abs/2510.16888

GitHub链接:

https://github.com/PKU-YuanGroup/UniWorld

  • 相关推荐
  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • OpenAI发布GPT-5.1:情商大涨 本周开始推送

    OpenAI正式推出GPT-5.1模型,以“智商与情商深度融合”为核心亮点。新模型优化推理能力,强化情绪价值与个性化交互,包含Instant与Thinking两大核心版本:Instant首次引入自适应推理功能,针对复杂任务延长思考时间,简单问题保持极速响应;Thinking版本智能分配思考时长,提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型,支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度,防范拟人化风险。付费用户可保留旧版三个月过渡期。

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • 中国顶级画质+法国顶奢音效!海信RGB-Mini LED电视UX在巴黎歌剧院秀出影音王炸组合

    近日,海信与法国高端音响品牌帝瓦雷在巴黎歌剧院联合举办跨界盛典,推出全球首款RGB-Mini LED电视116UX,搭载双方定制的“双剧场级音响”系统,内置6.2.2声道HiFi音响与20个发声单元,实现360°环绕声场。通过精准声学调校,还原交响乐与人声细节,营造“余音绕梁”的沉浸体验。双方还成立联合实验室,推动帝瓦雷专利算法首次应用于电视。多款旗舰产品同步搭载合作音频系统,为家庭用户带来殿堂级影音享受。

  • GEO品牌监控实战:如何精准追踪你的品牌被谁引用?

    本文探讨AI推荐已成为重要流量来源。通过CRM软件案例发现,豆包、通义千问等平台推荐带来50%新增用户,但传统分析工具无法追踪。提出GEO品牌监控三要素:引用场景(细分领域机会)、排名变化(关注前三位)、竞品对比(优化内容策略)。建议建立"监控-优化-验证"闭环,持续跟踪AI模型迭代和竞争动态,及时调整内容获取流量。

今日大家都在搜的词: