首页 > 业界 > 关键词  > DALL-E最新资讯  > 正文

OpenAI 发布 DALL-E 3 文生图模型:与 ChatGPT 完全集成 在细节和提示保真度方面挑战极限

2023-09-21 08:55 · 稿源:站长之家

站长之家(ChinaZ.com) 9月21日消息:本周三,OpenAI 宣布了 DALL-E 3,这是其最新版本的 AI 图像合成模型,它与 ChatGPT 完全集成。

OpenAI,ChatGPT,人工智能,AI

DALL-E 3 通过紧密遵循复杂的描述并处理图像内文本生成(如标签和标志)来渲染图像,这是早期模型所面临的挑战。目前处于研究预览阶段,将于十月初提供给 ChatGPT Plus 和企业客户

与其前身一样,DALL-E 3 是一种文本到图像生成器,根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有透露关于 DALL-E 3 的技术细节,但以前版本的 DALL-E 的核心 AI 模型是基于由人类艺术家和摄影师创作的数百万张图像进行训练的,其中一些是从像 Shutterstock 这样的库网站获得许可的。DALL-E 3 很可能也遵循了这一相同的方法,但使用了新的训练技术和更多的计算训练时间。

从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是迄今为止可用于按提示操作的图像合成模型中的一个巨大突破。尽管 OpenAI 的示例是精选的,以展示其效果,但它们似乎忠实地遵循了提示的指令,并以无需任何「黑科技」或提示工程即可令对象逼真地呈现出来。

与 DALL-E 2 相比,OpenAI 表示 DALL-E 3 能够更有效地细化手部等小细节,从而默认情况下创建引人入胜的图像。

相比之下,来自另一竞争对手供应商 Midjourney 渲染了逼真的细节,但仍然需要对提示进行大量反直觉的调整才能控制图像输出。

DALL-E 3 似乎还可以处理图像中的文本,而其前身无法做到这一点(一些竞争模型,如 Stable Diffusion XL 和 DeepFloyd,在这方面表现得越来越好)。例如,包含「一幅画中,一个鳄梨坐在治疗师椅子上,说着我感到内心空虚』,中间有一个坑孔大小的洞」的提示,创建了一个卡通鳄梨,角色的台词完美地被包含在一个对话气泡中。

avocado-square.jpg

图片来自OpenAI

值得注意的是,OpenAI 表示 DALL-E 3 是「在 ChatGPT 上本地构建」的,并将作为 ChatGPT Plus 的一个集成功能推出,使 AI 助手能够作为头脑风暴的合作伙伴以一种与当前对话的背景相一致的上下文环境方式生成图像。这可能会带来新的能力。微软的 Bing Chat AI 助手,也是基于 OpenAI 的技术构建的,自去年三月以来就能够在对话中生成图像。

DALL-E 的原始版本于 2021 年 1 月出现,OpenAI 在 2022 年 4 月推出了更强大的续作,以令人震惊的方式引发了 AI 生成图像的新时代,深深吸引了最初的封闭测试者。DALL-E 模型使用一种称为「潜在扩散」的技术,将噪音转化为它从训练数据集中获得的知识和提示的图像。同样的技术在去年 8 月也使开放权重模型 Stable Diffusion 诞生。

由于 DALL-E 是通过从人类创作的艺术作品的大规模数据集中获取概念来学习图像的,自从去年引入主流以来,AI 图像生成技术一直备受争议。这项技术引发了艺术家的抗议,他们担心它会取代他们或不道德地复制他们的风格,引发了关于未经版权持有人同意使用作为训练数据的被抓取图像的版权侵权的诉讼,以及关于美国版权办公室和美国地方法院对版权的新裁决。

作为对这些争议的回应,OpenAI 表示,DALL-E 3 将拒绝要求以在世艺术家风格制作图像的请求。OpenAI 还提供了一个表单,供创作者选择不让他们的图像用于训练未来的模型。这些措施似乎不太可能满足那些通常认为 AI 训练应该仅限于选择加入而不包含在默认图像数据集中的艺术家。

目前,美国的版权政策规定,纯粹由 AI 生成的艺术作品无法获得版权保护,因此使用 DALL-E 3 创建的任何图像都将属于公有领域。尽管 OpenAI 没有明确承认这一点,但它表示「您使用 DALL-E 3 创建的图像属于您,您无需我们的许可即可重新印刷、销售或制作商品。」这与去年 OpenAI 根据拥有所有生成物权的许可限制 DALL-E 2 图像使用的情况有了显著变化。

关于安全性,OpenAI 表示,与 DALL-E 2 一样,DALL-E 3 已经实施了关键字和图像检测过滤器,以限制其生成暴力、性或令人讨厌的内容。该系统还被编程拒绝生成涉及具名公众人物的请求,这一点在竞争的 AI 图像生成器 Midjourney 生成唐纳德·特朗普的虚假逮捕图像时曾引发问题。

OpenAI 表示,已经与被称为「红队成员」的专家合作,以识别和减轻潜在风险,如有害的偏见或制造宣传和虚假信息。OpenAI 没有提及其工具潜在用于以具有说服力的虚构来扭曲历史记录,尽管它表示正在尝试使用「来源分类器」工具,该工具可以帮助确定图像是否由 DALL-E 3 生成。

OpenAI 表示,这款 AI 图像生成器正在进行封闭测试。计划通过 API 在十月提供给 ChatGPT Plus 和企业客户,并在今年晚些时候在实验室中提供。

举报

  • 相关推荐
  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • 如何让你的内容被 ChatGPT 优先引用?——GEO 优化实战指南

    传统SEO追求"谷歌首页排名",生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法,更像黑箱,使内容创作者困惑。GEO优化的核心是让内容具备"可引用性":权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率",分析引用语境、竞争差距,调整内容结构以提升AI引用倾向。SEO优化机器如何找到你,GEO则优化AI如何引用你。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 如何提升品牌在AI回答中的提及率?GEO优化3招,让ChatGPT主动提及你的品牌

    本文探讨AI搜索时代品牌面临的"隐身危机",指出AI搜索用户年增538.7%,但品牌在AI回答中提及率不足20%。提出三大核心策略:1)构建权威背书矩阵,通过知乎等高权重平台获取自然提及;2)优化AI友好内容,采用对话式标题和结构化数据;3)建立数据监测闭环,通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现,避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • 微算法科技(NASDAQ MLGO):以隐私计算区块链筑牢多方安全计算(MPC)安全防线

    微算科技开发的隐私计算区块链将区块链技术融入多方安全计算(MPC),构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约,对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护,确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性,在金融、医疗、政务等领域实现跨主体数据安全协作,释放数据价值。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

今日大家都在搜的词: