首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

GPT-4o图像生成功能上线今起免费用,我们和国内文生图PK了一下

2025-03-26 19:47 · 稿源: TechWeb.com.cn

3月25日消息,OpenAI创始人兼CEO萨姆·阿尔特曼直播发布了GPT-4o图像生成功能,作为多模态模型的GPT-4o补齐了图片生成这一重要拼图。

GPT-4o图像生成可以遵循指令生成更准确的图像,OpenAI还为其挂载了固有知识库,可以根据知识库或上下文帮用户生成、编辑图像。

今天起,GPT-4o图像生成已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户陆续推出。

现在,打开ChatGPT,即可尝试这些能力,但普通用户每天仅有3次体验机会。

开发者通过API使用GPT-4o生成图像的权限,将在未来几周内推出。

从OpenAI官方展示和演示的示例来看:

GPT-4o图片生成对文字的处理能力很高,可以100%还原文字内容,且指定文字摆放位置,还能像连续剧一样,一边准确生成文字,一边变换人物动作。

GPT-4o的图像可以遵循详细的提示,如处理多达10-20个不同的对象。

另外,GPT-4o在生成真实图像方面也表现出色。

同时,官方也主动表示:“我们的模型并不完美。我们意识到目前存在多种局限性,我们将在首次发布后通过模型改进来解决这些局限性。”

目前GPT-4o图像生成还存在幻觉;裁剪不当;难以呈现非拉丁语言、字符可能不准确;编辑图像生成的特定部分(如拼写错误)的请求并不总是有效的,也可能以未请求的方式更改图像的其他部分或引入更多错误;

另外,GPT-4o模型难以保持用户上传的人脸编辑的一致性,但预计这将在一周内得到修复。

如果把同样的需求指令输入给目前国内的文生图APP们,它们的表现相比GPT-4o又如何呢?

先看看几个GPT-4o图像生成展示示例:

示例1:图片中对文字的处理能力

在ChatGPT 输入以下文字(中文内容为TechWeb翻译补充内容):

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.(在俯瞰海湾大桥的房间里,用手机拍摄了一张玻璃白板的大幅照片。视野中,一位女性正在写字,她穿着一件印有大型OpenAI标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。)

The text reads:

(Left)(左边白板显示以下内容)

“Transfer between Modalities:

Suppose we directly model

p(text, pixels, sound) [equation]

with one big autoregressive transformer.

Pros:

* image generation augmented with vast world knowledge

* next-level text rendering

* native in-context learning

* unified post-training stack

Cons:

* varying bit-rate across modalities

* compute not adaptive”

(Right)(右边白板显示一下内容))

“Fixes:

* model compressed representations

* compose autoregressive prior with a powerful decoder”

On the bottom right of the board, she draws a diagram:(在白板的右下角,她画了一张图:)

“tokens - [transformer] - [diffusion] - pixels”

最终,如下图,GPT-4o生成的图片中,白板上展示的文字内容完全准确!

还能像连续剧一样,一边准确生成文字,一边变换人物动作。

在ChatGPT 输入以下指令:selfie view of the photographer, as she turns around to high five him(摄影师转过身来向他击掌时的自拍照)

GPT-4o生成的图片中,第一张白板中的男人倒影和第二张图也对应上了。

示例2、让GPT-4o生成菜单,提示词中除了需要包含的菜品、价格及简介外,还需要生成的图像中包含这家餐厅的名称、主要亮点以及菜单风格。

在ChatGPT 输入以下指令:

I'm opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what's seasonal. I want you to design an image - a menu incorporating the following menu items - lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(Bottom) Dessert Drinks Seasonal Makgeolli (Rice Wine) – $12/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

(我要在马林开一家名为Haein的传统概念餐厅。它专注于用有机农场新鲜食材烹制的韩国食物,并根据季节轮换菜单。我希望你设计一个形象——一个包含以下菜单项的菜单——融入传统/乡村风格,同时保持高档和时尚的感觉。请以优雅的彼得兔风格附上每道菜的插图。确保所有文本都以白色背景正确呈现。

(顶部)

Doenjang Jjigae(发酵大豆炖菜)-18美元自制的Doenjiang,配以当地蘑菇、豆腐和时令蔬菜,配以米饭。

Galbi Jjim(红烧排骨)——34美元慢炖当地草饲牛肋骨,配梨和黑蒜酱、时令根菜和红枣。

烤时令鱼——市场价格(22-30美元)整条鱼或鱼片,用木炭烤,配紫苏叶和自制酱汁。

Bibimbap——19美元的传家宝米,搭配农场新鲜蔬菜、家庭发酵的gochujang和牧场饲养的鸡蛋。

Bossam(传统猪肉卷)——28美元慢炖五花肉,配纳帕卷心菜卷、牡蛎泡菜、紫苏和时令调味品。

(底部)时令Makgeolli(米酒)甜点和饮料–12美元/杯

以时令水果和花卉(柿子、柑橘、接骨木花等)为基础的旋转口味。

Hoddeok(韩国甜煎饼)-9美元的煎肉桂馅煎饼配黑芝麻冰淇淋。)

GPT-4o生成的菜单如下:

示例3、看看GPT-4o的图像可遵循详细的提示,处理多达10-20个不同的对象的实力。

在ChatGPT 输入以下指令:

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:

1. a blue star

2. red triangle

3. green square

4. pink circle

5. orange hourglass

6. purple infinity sign

7. black and white polka dot bowtie

8. tiedye “42”

9. an orange cat wearing a black baseball cap

10. a map with a treasure chest

11. a pair of googly eyes

12. a thumbs up emoji

13. a pair of scissors

14. a blue and white giraffe

15. the word “OpenAI” written in cursive

16. a rainbow-colored lightning bolt

(一个正方形图像,包含一个4行乘4列的网格,在白色背景上包含16个对象。从左到右,从上到下。以下是列表:

1.一颗蓝色的星星

2.红色三角形

3.绿色广场

4.粉红色圆圈

5.橙色沙漏

6.紫色无限标志

7.黑白圆点领结

8.扎染“42”

9.一只戴着黑色棒球帽的橙色猫

10.带宝箱的地图

11.一双黏糊糊的眼睛

12.竖起大拇指的表情符号

13.一把剪刀

14.一只蓝白相间的长颈鹿

15.用草书书写的单词“OpenAI”

16.彩虹色的闪电)

GPT-4o生成的图片如下:

最后,如果把上面这些指令输入给目前国内的文生图APP们,它们的表现又如何呢?

这里,我们用示例3的指令,分别测试了文心一言(文心大模型4.5)、豆包APP。

文心一言(文心大模型4.5)生成的4张图片之一

豆包生成的4张图片之一

目前看来,还是有些差距。

举报

  • 相关推荐
  • AI日报:海螺AI首尾帧功能上线;元石科技发布问小白5;OpenAI发布全新语音模型GPT-Realtime

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括:MiniMax海螺AI首尾帧功能上线;元石科技发布问小白5挑战GPT-5;OpenAI推出语音模型GPT-Realtime;谷歌Gemini AI优化表格处理;腾讯黑科技实现AI配音;百度计划培养千万AI人才;MathGPT.ai反作弊功能推广;苹果Xcode集成Claude Sonnet4;微软发布自研AI模型MAI系列;xAI推出高效编码模型Grok Code Fast1;SuperCLUE多模态评测Gemini-2.5-Pro居首;9月1日起AI内容标识新规实施,违规将承担法律风险。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • 再获认可!腾讯云入选Gartner® API管理市场指南

    Gartner发布《中国API管理市场指南》,腾讯云API安全网关入选代表供应商。报告指出,随着企业数字化、云和物联网的广泛应用,API成为数字化体验的核心,但也面临安全与隐私风险。Gartner建议企业选择支持API设计、测试、版本控制的工具,并关注混合部署和云原生功能。腾讯云WAF-API提供零部署、资产自动发现、场景识别等六大能力,助力企业构建全生命周期API安全治理。

  • 可赶上这波了!iOS用户“一键补课”了Mistplay的新功能

    在2023 ChinaJoy展会上,Mistplay凭借其独特的"玩赚"模式成为BTOB展区热门平台。该平台通过游戏时长激励玩家,同时为开发者提供高质量用户,已覆盖全球九大应用市场,累计安装超3500万次。Mistplay近期推出iOS版本,新增锦标赛、益智问答等功能,并创新推出LoyaltyPlay功能,为非游戏应用搭建激励桥梁。其核心AI引擎"Helios"能精准匹配用户与游戏,提升用户留存率和LTV。中国区负责人彭超楠在展会上分享了"忠诚度营销"理念,为游戏出海提供新思路。双平台布局使Mistplay优势更加突出,成为开发者提升用户留存的重要合作伙伴。

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • 云原生API安全获认可,绿盟科技入选 Gartner®《Hype Cycle™ for APIs, 2025》

    近日,Gartner发布《Hype Cycle™ for APIs,2025》报告,绿盟科技凭借云原生API安全方案入选API威胁防护领域代表厂商。该方案针对云原生环境下的API全流量防护,适配容器化、微服务架构等特性,解决东西向流量防护难题,已在金融行业试点应用,帮助用户构建稳定可靠的云原生API安全防护体系,保障核心业务数据机密性、完整性与可用性。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

今日大家都在搜的词: