首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

GPT-4o图像生成功能上线今起免费用,我们和国内文生图PK了一下

2025-03-26 19:47 · 稿源: TechWeb.com.cn

3月25日消息,OpenAI创始人兼CEO萨姆·阿尔特曼直播发布了GPT-4o图像生成功能,作为多模态模型的GPT-4o补齐了图片生成这一重要拼图。

GPT-4o图像生成可以遵循指令生成更准确的图像,OpenAI还为其挂载了固有知识库,可以根据知识库或上下文帮用户生成、编辑图像。

今天起,GPT-4o图像生成已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户陆续推出。

现在,打开ChatGPT,即可尝试这些能力,但普通用户每天仅有3次体验机会。

开发者通过API使用GPT-4o生成图像的权限,将在未来几周内推出。

从OpenAI官方展示和演示的示例来看:

GPT-4o图片生成对文字的处理能力很高,可以100%还原文字内容,且指定文字摆放位置,还能像连续剧一样,一边准确生成文字,一边变换人物动作。

GPT-4o的图像可以遵循详细的提示,如处理多达10-20个不同的对象。

另外,GPT-4o在生成真实图像方面也表现出色。

同时,官方也主动表示:“我们的模型并不完美。我们意识到目前存在多种局限性,我们将在首次发布后通过模型改进来解决这些局限性。”

目前GPT-4o图像生成还存在幻觉;裁剪不当;难以呈现非拉丁语言、字符可能不准确;编辑图像生成的特定部分(如拼写错误)的请求并不总是有效的,也可能以未请求的方式更改图像的其他部分或引入更多错误;

另外,GPT-4o模型难以保持用户上传的人脸编辑的一致性,但预计这将在一周内得到修复。

如果把同样的需求指令输入给目前国内的文生图APP们,它们的表现相比GPT-4o又如何呢?

先看看几个GPT-4o图像生成展示示例:

示例1:图片中对文字的处理能力

在ChatGPT 输入以下文字(中文内容为TechWeb翻译补充内容):

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.(在俯瞰海湾大桥的房间里,用手机拍摄了一张玻璃白板的大幅照片。视野中,一位女性正在写字,她穿着一件印有大型OpenAI标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。)

The text reads:

(Left)(左边白板显示以下内容)

“Transfer between Modalities:

Suppose we directly model

p(text, pixels, sound) [equation]

with one big autoregressive transformer.

Pros:

* image generation augmented with vast world knowledge

* next-level text rendering

* native in-context learning

* unified post-training stack

Cons:

* varying bit-rate across modalities

* compute not adaptive”

(Right)(右边白板显示一下内容))

“Fixes:

* model compressed representations

* compose autoregressive prior with a powerful decoder”

On the bottom right of the board, she draws a diagram:(在白板的右下角,她画了一张图:)

“tokens - [transformer] - [diffusion] - pixels”

最终,如下图,GPT-4o生成的图片中,白板上展示的文字内容完全准确!

还能像连续剧一样,一边准确生成文字,一边变换人物动作。

在ChatGPT 输入以下指令:selfie view of the photographer, as she turns around to high five him(摄影师转过身来向他击掌时的自拍照)

GPT-4o生成的图片中,第一张白板中的男人倒影和第二张图也对应上了。

示例2、让GPT-4o生成菜单,提示词中除了需要包含的菜品、价格及简介外,还需要生成的图像中包含这家餐厅的名称、主要亮点以及菜单风格。

在ChatGPT 输入以下指令:

I'm opening a traditional concept restaurant in Marin called Haein. It focuses on Korean food cooked with organic, farm-fresh ingredients, with a rotating menu based on what's seasonal. I want you to design an image - a menu incorporating the following menu items - lean into the traditional/rustic style while keeping it feeling upscale and sleek. Please also include illustrations of each dish in an elegant, peter rabbit style. Make sure all the text is rendered correctly, with a white background.

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(Bottom) Dessert Drinks Seasonal Makgeolli (Rice Wine) – $12/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

(我要在马林开一家名为Haein的传统概念餐厅。它专注于用有机农场新鲜食材烹制的韩国食物,并根据季节轮换菜单。我希望你设计一个形象——一个包含以下菜单项的菜单——融入传统/乡村风格,同时保持高档和时尚的感觉。请以优雅的彼得兔风格附上每道菜的插图。确保所有文本都以白色背景正确呈现。

(顶部)

Doenjang Jjigae(发酵大豆炖菜)-18美元自制的Doenjiang,配以当地蘑菇、豆腐和时令蔬菜,配以米饭。

Galbi Jjim(红烧排骨)——34美元慢炖当地草饲牛肋骨,配梨和黑蒜酱、时令根菜和红枣。

烤时令鱼——市场价格(22-30美元)整条鱼或鱼片,用木炭烤,配紫苏叶和自制酱汁。

Bibimbap——19美元的传家宝米,搭配农场新鲜蔬菜、家庭发酵的gochujang和牧场饲养的鸡蛋。

Bossam(传统猪肉卷)——28美元慢炖五花肉,配纳帕卷心菜卷、牡蛎泡菜、紫苏和时令调味品。

(底部)时令Makgeolli(米酒)甜点和饮料–12美元/杯

以时令水果和花卉(柿子、柑橘、接骨木花等)为基础的旋转口味。

Hoddeok(韩国甜煎饼)-9美元的煎肉桂馅煎饼配黑芝麻冰淇淋。)

GPT-4o生成的菜单如下:

示例3、看看GPT-4o的图像可遵循详细的提示,处理多达10-20个不同的对象的实力。

在ChatGPT 输入以下指令:

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:

1. a blue star

2. red triangle

3. green square

4. pink circle

5. orange hourglass

6. purple infinity sign

7. black and white polka dot bowtie

8. tiedye “42”

9. an orange cat wearing a black baseball cap

10. a map with a treasure chest

11. a pair of googly eyes

12. a thumbs up emoji

13. a pair of scissors

14. a blue and white giraffe

15. the word “OpenAI” written in cursive

16. a rainbow-colored lightning bolt

(一个正方形图像,包含一个4行乘4列的网格,在白色背景上包含16个对象。从左到右,从上到下。以下是列表:

1.一颗蓝色的星星

2.红色三角形

3.绿色广场

4.粉红色圆圈

5.橙色沙漏

6.紫色无限标志

7.黑白圆点领结

8.扎染“42”

9.一只戴着黑色棒球帽的橙色猫

10.带宝箱的地图

11.一双黏糊糊的眼睛

12.竖起大拇指的表情符号

13.一把剪刀

14.一只蓝白相间的长颈鹿

15.用草书书写的单词“OpenAI”

16.彩虹色的闪电)

GPT-4o生成的图片如下:

最后,如果把上面这些指令输入给目前国内的文生图APP们,它们的表现又如何呢?

这里,我们用示例3的指令,分别测试了文心一言(文心大模型4.5)、豆包APP。

文心一言(文心大模型4.5)生成的4张图片之一

豆包生成的4张图片之一

目前看来,还是有些差距。

举报

  • 相关推荐
  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

    小米14 Pro系列10月29日迎来副屏重大更新,新增动态大头贴、实时对话翻译功能,并上线5款动态壁纸及2款复古风格掌机游戏。动态大头贴支持通过副屏拍摄并应用模板增添趣味,对话翻译实现正屏输入与副屏多语言同步显示。壁纸库新增萌系与科技自然主题,掌机游戏搭配专属保护壳提升沉浸体验。此次更新分阶段推送,预计11月中旬覆盖全部用户,持续拓展副屏交互场景。

  • 小米17 Pro系列妙享背屏新功能上线:包括对话翻译、新游戏等

    小米17系列妙享背屏功能将于10月29日正式上线,包含四大亮点:动态大头贴支持拍摄生动瞬间并新增明亮风格模板;对话翻译实现正屏输入、背屏即时显示译文;新增动态壁纸提升界面趣味性;配合游戏手机壳可畅玩《愤怒的小鸟》等经典游戏。该背屏还支持倒计时、音乐控制等实用功能,尺寸设计合理,投入超10亿元研发,体现小米对用户体验的重视。

  • 更新功能、内测新App,抖音快手再战社交

    ​抖音和快手又一次向社交领域发起进攻。 近日,抖音、快手在站内密集更新了“日常”“说说”等一系列社交新功能;此外,抖音还被曝正在内测全新的社交App。 当流量增长触及天花板,内容的稀缺性逐渐变弱,社交似乎成为了短视频巨头的“新叙事”。 它们为何始终对“社交”念念不忘?这究竟是构筑护城河的必然选择,还是一场注定艰难的豪赌?

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 苹果推出网页版App Store 浏览器即可使用

    苹果公司近日推出网页版App Store,用户无需依赖特定苹果设备,通过任意浏览器访问apps.apple.com即可浏览全平台应用。新版网页设计与原生App Store界面高度相似,功能丰富且交互流畅,取代了原先简单的登录页面。用户可通过左上角下拉菜单快速切换至iPhone、iPad等设备的专属应用页面,实现跨平台浏览。网页版完整移植了原生商店的“今日”标签页内容,包括编辑推荐、热门�

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

今日大家都在搜的词: