首页 > AI头条  > 正文

新开源 AI 系统 OmniGen 2:像GPT-4o 一样融合了图像和文本生成

2025-06-30 14:54 · 来源: AIbase基地

近日,北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。

与2024年发布的第一代 OmniGen 相比,OmniGen2采用了两条独立的解码路径:一条用于文本生成,另一条用于图像生成,且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时,有效地提升了多模态语言模型的表现。

image.png

OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型(MLLM)。在图像生成方面,该系统使用了一种自定义的扩散变换器,参数量达到约40亿。模型在遇到特殊的 “<|img|>” 标记时会自动切换到图像生成模式。值得一提的是,OmniGen2能够处理多种提示和艺术风格,但其生成的照片级图像在清晰度上仍有待提升。

image.png

为了训练 OmniGen2,研究团队使用了大约1.4亿张来自开源数据集和专有集合的图像。此外,他们还开发了新技术,通过提取视频中的相似帧(例如,一个微笑和不微笑的面孔),并利用语言模型生成相应的编辑指令。

OmniGen2的另一大亮点是其反思机制,能够让模型自我评估生成的图像,并在多个轮次中进行改进。该系统可以发现生成图像中的缺陷,并提出具体的修正建议。

为了评估该系统的性能,研究团队引入了 OmniContext 基准测试,包括角色、物体和场景三大类,每类下有八个子任务和各50个示例。评估是通过 GPT-4.1进行的,主要打分标准包括提示的准确性和主题的一致性。OmniGen2的总分为7.18,超越了所有其他开源模型,而 GPT-4o 的得分为8.8。

尽管 OmniGen2在多个基准测试中表现优异,但仍存在一些不足之处:英文提示的效果优于中文,身体形态的变化较为复杂,输出质量也受到输入图像的影响。对于模糊的多图像提示,系统需要明确的对象放置指示。

研究团队计划将模型、训练数据和构建管道发布到 Hugging Face 平台。https://huggingface.co/OmniGen2/OmniGen2

划重点:  

🌟 OmniGen2是一个开源的图文生成系统,采用独立的文本和图像解码路径。  

🎨 它能够处理多种艺术风格的图像生成,并具备自我反思和改进功能。  

📈 OmniGen2在多个基准测试中表现出色,特别是在图像编辑方面创下了新的开放源代码模型纪录。

  • 相关推荐
  • AI智能生成2万封邮件,全球首款外贸信AI Agent亮相

    2025年印尼雅加达国际工业周于6月4-7日盛大开幕,米奥兰特推出全球首个展会场景外贸AI+Agent系统,实现"沟通即生成"的智能贸易新模式。展会吸引超4.5万专业买家,AI预展平台和智能体技术驱动下,买卖对接率突破50%。核心亮点包括:1)AI眼镜支持128种语言实时翻译,打破语言壁垒;2)外贸信AI Agent自动生成含产品参数、运输条款等定制邮件,10分钟完成传统需通宵的工

  • Agent成了腾讯AI最大的牌面

    抓住DeepSeek带来的契机扭转AI领域的竞争态势之后,腾讯围绕AI应用的布局正在快速深化。 元宝、ima等原生AI应用是腾讯进行探索的最前线。腾讯元宝通过大规模市场投入获得用户增长后,继续拓展了更多能力,包括将元宝放入微信好友列表,打通与腾讯地图、腾讯文档的连接,以及上线Chrome浏览器插件。腾讯管理层目前还在观察用户对这些新增功能的反馈,判断哪些功能可以�

  • 如何用AI Agent让企业效率翻倍?

    2025年5月,红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身,而是为用户创造的实际收益。在此背景下,Agent的重要性被前所未有的推至所有人的视野前沿。 硅谷大厂开启了第一波加速,微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代,正在见证AI系统如何以全新方式帮助我们解决问�

  • 出门问问发布Agentic AI软硬结合产品TicNote,定义新一代“AI思考伙伴”

    出门问问发布新一代AI硬件TicNote,内置"Shadow AI"系统,实现"有记忆的AI记录+主动洞察+主动分析+陪伴创作"功能。该产品通过软硬件结合,成为用户的随身AI思考伙伴,适用于会议、商务沟通、学习等场景。TicNote具备20小时续航、10米远距收音、120+语言转写能力,支持跨文件项目管理。CEO李志飞表示,TicNote是"用AI的AI做AI"的AGI实践产品,标志着公司在软硬结合道路上更进一步。国内版已上线,海外版自2025年4月推出以来获广泛认可。

  • 数势科技凭SwiftAgent获评 IDC「数据管理分析与生成式AI」中国代表厂商

    IDC最新报告显示,数据管理分析与生成式AI应用呈现四大技术趋势:数据分析平台、数据平台、决策自动化和数据流管理。59%企业计划在2025年前投资自动化基础设施和AI解决方案。数势科技自主研发的SwiftAgent 3.0智能分析平台,通过实时数据洞察、异常预警和智能策略建议,构建"分析-决策-行动"闭环,显著提升企业响应速度。该平台整合企业知识库和历史数据,提供可�

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • 「6月26日AI日报」可灵AI推全球首部AIGC单元剧;谷歌开源AI智能体Gemini CLI

    AI行业近期动态汇总:1)豆包AI编程升级为"应用创作1.0",支持可视化编辑和实时预览,降低开发门槛;2)谷歌开源Gemini CLI工具,集成Gemini 2.5 Pro模型,提供免费编程助手;3)Anthropic推出"Artifacts"功能,用户无需编程即可在Claude中创建AI应用;4)出门问问发布TicNote+硬件产品,内置Shadow AI技术;5)OpenAI将Codex CLI重构为Rust语言以提升性能;6)谷歌发布Imagen4文生图模型,突�

  • AIGC智能体生态大会聚焦AI融合,微美全息(WIMI.US)构建多维AIGC+赋能产业创新

    第二届AIGC与人工智能体生态大会在上海召开,主题为"智链万物·共生无界"。大会汇聚100+国内外顶尖企业和300+行业决策者,聚焦生成式AI与智能体的协同创新,探讨多模态大模型、智能体决策框架等核心技术。微美全息(WIMI.US)展示了AIGC+AI战略布局,构建跨模态内容生产平台,应用于教育、直播等领域。会议指出AIGC技术正从工具向生产力引擎进化,推动行业智能化转型�

  • 王自如要回归老本行了:第一次正式播客讲苹果WWDC和Apple Intelligence

    王自如今天发文称,今晚会上线AI认知小宇宙”系列的最后一期视频,系列一共4期。 他表示,在在正式提笔前就有预感这个系列对于受众和流量的局限性,但依旧坚持把它放在我的频道中最优先需要创作的内容。 王自如称:如果把我的频道内容理解为一部电影,那这个系列就是电影的前传,它最核心的使命是在主线剧情出来前构建宏观的故事背景,是让我和我的用户之间拉�

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�

今日大家都在搜的词: