首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

GPT-4o图像生成功能上线今起免费用,我们和国内文生图PK了一下

2025-03-26 19:47 · 稿源: TechWeb.com.cn

3月25日消息,OpenAI创始人兼CEO萨姆·阿尔特曼直播发布了GPT-4o图像生成功能,作为多模态模型的GPT-4o补齐了图片生成这一重要拼图。

GPT-4o图像生成可以遵循指令生成更准确的图像,OpenAI还为其挂载了固有知识库,可以根据知识库或上下文帮用户生成、编辑图像。

今天起,GPT-4o图像生成已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户陆续推出。

现在,打开ChatGPT,即可尝试这些能力,但普通用户每天仅有3次体验机会。

开发者通过API使用GPT-4o生成图像的权限,将在未来几周内推出。

从OpenAI官方展示和演示的示例来看:

GPT-4o图片生成对文字的处理能力很高,可以100%还原文字内容,且指定文字摆放位置,还能像连续剧一样,一边准确生成文字,一边变换人物动作。

GPT-4o的图像可以遵循详细的提示,如处理多达10-20个不同的对象。

另外,GPT-4o在生成真实图像方面也表现出色。

同时,官方也主动表示:“我们的模型并不完美。我们意识到目前存在多种局限性,我们将在首次发布后通过模型改进来解决这些局限性。”

目前GPT-4o图像生成还存在幻觉;裁剪不当;难以呈现非拉丁语言、字符可能不准确;编辑图像生成的特定部分(如拼写错误)的请求并不总是有效的,也可能以未请求的方式更改图像的其他部分或引入更多错误;

另外,GPT-4o模型难以保持用户上传的人脸编辑的一致性,但预计这将在一周内得到修复。

如果把同样的需求指令输入给目前国内的文生图APP们,它们的表现相比GPT-4o又如何呢?

先看看几个GPT-4o图像生成展示示例:

示例1:图片中对文字的处理能力

在ChatGPT 输入以下文字(中文内容为TechWeb翻译补充内容):

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.(在俯瞰海湾大桥的房间里,用手机拍摄了一张玻璃白板的大幅照片。视野中,一位女性正在写字,她穿着一件印有大型OpenAI标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。)

The text reads:

(Left)(左边白板显示以下内容)

“Transfer between Modalities:

Suppose we directly model

p(text, pixels, sound) [equation]

with one big autoregressive transformer.

Pros:

* image generation augmented with vast world knowledge

* next-level text rendering

* native in-context learning

* unified post-training stack

Cons:

* varying bit-rate across modalities

* compute not adaptive”

(Right)(右边白板显示一下内容))

“Fixes:

* model compressed representations

* compose autoregressive prior with a powerful decoder”

On the bottom right of the board, she draws a diagram:(在白板的右下角,她画了一张图:)

“tokens - [transformer] - [diffusion] - pixels”

最终,如下图,GPT-4o生成的图片中,白板上展示的文字内容完全准确!

还能像连续剧一样,一边准确生成文字,一边变换人物动作。

在ChatGPT 输入以下指令:selfie view of the photographer, as she turns around to high five him(摄影师转过身来向他击掌时的自拍照)

GPT-4o生成的图片中,第一张白板中的男人倒影和第二张图也对应上了。

示例2、让GPT-4o生成菜单,提示词中除了需要包含的菜品、价格及简介外,还需要生成的图像中包含这家餐厅的名称、主要亮点以及菜单风格。

在ChatGPT 输入以下指令:

I'm opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what's seasonal. I want you to design an image - a menu incorporating the following menu items - lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(Bottom) Dessert Drinks Seasonal Makgeolli (Rice Wine) – $12/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

(我要在马林开一家名为Haein的传统概念餐厅。它专注于用有机农场新鲜食材烹制的韩国食物,并根据季节轮换菜单。我希望你设计一个形象——一个包含以下菜单项的菜单——融入传统/乡村风格,同时保持高档和时尚的感觉。请以优雅的彼得兔风格附上每道菜的插图。确保所有文本都以白色背景正确呈现。

(顶部)

Doenjang Jjigae(发酵大豆炖菜)-18美元自制的Doenjiang,配以当地蘑菇、豆腐和时令蔬菜,配以米饭。

Galbi Jjim(红烧排骨)——34美元慢炖当地草饲牛肋骨,配梨和黑蒜酱、时令根菜和红枣。

烤时令鱼——市场价格(22-30美元)整条鱼或鱼片,用木炭烤,配紫苏叶和自制酱汁。

Bibimbap——19美元的传家宝米,搭配农场新鲜蔬菜、家庭发酵的gochujang和牧场饲养的鸡蛋。

Bossam(传统猪肉卷)——28美元慢炖五花肉,配纳帕卷心菜卷、牡蛎泡菜、紫苏和时令调味品。

(底部)时令Makgeolli(米酒)甜点和饮料–12美元/杯

以时令水果和花卉(柿子、柑橘、接骨木花等)为基础的旋转口味。

Hoddeok(韩国甜煎饼)-9美元的煎肉桂馅煎饼配黑芝麻冰淇淋。)

GPT-4o生成的菜单如下:

示例3、看看GPT-4o的图像可遵循详细的提示,处理多达10-20个不同的对象的实力。

在ChatGPT 输入以下指令:

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:

1. a blue star

2. red triangle

3. green square

4. pink circle

5. orange hourglass

6. purple infinity sign

7. black and white polka dot bowtie

8. tiedye “42”

9. an orange cat wearing a black baseball cap

10. a map with a treasure chest

11. a pair of googly eyes

12. a thumbs up emoji

13. a pair of scissors

14. a blue and white giraffe

15. the word “OpenAI” written in cursive

16. a rainbow-colored lightning bolt

(一个正方形图像,包含一个4行乘4列的网格,在白色背景上包含16个对象。从左到右,从上到下。以下是列表:

1.一颗蓝色的星星

2.红色三角形

3.绿色广场

4.粉红色圆圈

5.橙色沙漏

6.紫色无限标志

7.黑白圆点领结

8.扎染“42”

9.一只戴着黑色棒球帽的橙色猫

10.带宝箱的地图

11.一双黏糊糊的眼睛

12.竖起大拇指的表情符号

13.一把剪刀

14.一只蓝白相间的长颈鹿

15.用草书书写的单词“OpenAI”

16.彩虹色的闪电)

GPT-4o生成的图片如下:

最后,如果把上面这些指令输入给目前国内的文生图APP们,它们的表现又如何呢?

这里,我们用示例3的指令,分别测试了文心一言(文心大模型4.5)、豆包APP。

文心一言(文心大模型4.5)生成的4张图片之一

豆包生成的4张图片之一

目前看来,还是有些差距。

举报

  • 相关推荐
  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • 小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

    小米14 Pro系列10月29日迎来副屏重大更新,新增动态大头贴、实时对话翻译功能,并上线5款动态壁纸及2款复古风格掌机游戏。动态大头贴支持通过副屏拍摄并应用模板增添趣味,对话翻译实现正屏输入与副屏多语言同步显示。壁纸库新增萌系与科技自然主题,掌机游戏搭配专属保护壳提升沉浸体验。此次更新分阶段推送,预计11月中旬覆盖全部用户,持续拓展副屏交互场景。

  • 小米17 Pro系列妙享背屏新功能上线:包括对话翻译、新游戏等

    小米17系列妙享背屏功能将于10月29日正式上线,包含四大亮点:动态大头贴支持拍摄生动瞬间并新增明亮风格模板;对话翻译实现正屏输入、背屏即时显示译文;新增动态壁纸提升界面趣味性;配合游戏手机壳可畅玩《愤怒的小鸟》等经典游戏。该背屏还支持倒计时、音乐控制等实用功能,尺寸设计合理,投入超10亿元研发,体现小米对用户体验的重视。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

    小米手表S4 eSIM版与S4 Sport版正式上线,用户连接小米手机后可通过中国移动“一号双终端”业务实现手表与手机共享号码的便捷通信。目前云南、四川两省暂未开放,其他地区用户可通过小米运动健康App在线自助办理。办理需确保手表与手机连接,并在手表设置中开启移动网络开关,待eSIM数据传输完成后即可使用全部功能。其他支持eSIM的小米手表产品也在逐步认证中,未来将陆续开放服务。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

今日大家都在搜的词: