首页 > 业界 > 关键词  > DALL-E最新资讯  > 正文

OpenAI 发布 DALL-E 3 文生图模型:与 ChatGPT 完全集成 在细节和提示保真度方面挑战极限

2023-09-21 08:55 · 稿源:站长之家

站长之家(ChinaZ.com) 9月21日消息:本周三,OpenAI 宣布了 DALL-E 3,这是其最新版本的 AI 图像合成模型,它与 ChatGPT 完全集成。

OpenAI,ChatGPT,人工智能,AI

DALL-E 3 通过紧密遵循复杂的描述并处理图像内文本生成(如标签和标志)来渲染图像,这是早期模型所面临的挑战。目前处于研究预览阶段,将于十月初提供给 ChatGPT Plus 和企业客户

与其前身一样,DALL-E 3 是一种文本到图像生成器,根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有透露关于 DALL-E 3 的技术细节,但以前版本的 DALL-E 的核心 AI 模型是基于由人类艺术家和摄影师创作的数百万张图像进行训练的,其中一些是从像 Shutterstock 这样的库网站获得许可的。DALL-E 3 很可能也遵循了这一相同的方法,但使用了新的训练技术和更多的计算训练时间。

从 OpenAI 在其宣传博客上提供的示例来看,DALL-E 3 似乎是迄今为止可用于按提示操作的图像合成模型中的一个巨大突破。尽管 OpenAI 的示例是精选的,以展示其效果,但它们似乎忠实地遵循了提示的指令,并以无需任何「黑科技」或提示工程即可令对象逼真地呈现出来。

与 DALL-E 2 相比,OpenAI 表示 DALL-E 3 能够更有效地细化手部等小细节,从而默认情况下创建引人入胜的图像。

相比之下,来自另一竞争对手供应商 Midjourney 渲染了逼真的细节,但仍然需要对提示进行大量反直觉的调整才能控制图像输出。

DALL-E 3 似乎还可以处理图像中的文本,而其前身无法做到这一点(一些竞争模型,如 Stable Diffusion XL 和 DeepFloyd,在这方面表现得越来越好)。例如,包含「一幅画中,一个鳄梨坐在治疗师椅子上,说着我感到内心空虚』,中间有一个坑孔大小的洞」的提示,创建了一个卡通鳄梨,角色的台词完美地被包含在一个对话气泡中。

avocado-square.jpg

图片来自OpenAI

值得注意的是,OpenAI 表示 DALL-E 3 是「在 ChatGPT 上本地构建」的,并将作为 ChatGPT Plus 的一个集成功能推出,使 AI 助手能够作为头脑风暴的合作伙伴以一种与当前对话的背景相一致的上下文环境方式生成图像。这可能会带来新的能力。微软的 Bing Chat AI 助手,也是基于 OpenAI 的技术构建的,自去年三月以来就能够在对话中生成图像。

DALL-E 的原始版本于 2021 年 1 月出现,OpenAI 在 2022 年 4 月推出了更强大的续作,以令人震惊的方式引发了 AI 生成图像的新时代,深深吸引了最初的封闭测试者。DALL-E 模型使用一种称为「潜在扩散」的技术,将噪音转化为它从训练数据集中获得的知识和提示的图像。同样的技术在去年 8 月也使开放权重模型 Stable Diffusion 诞生。

由于 DALL-E 是通过从人类创作的艺术作品的大规模数据集中获取概念来学习图像的,自从去年引入主流以来,AI 图像生成技术一直备受争议。这项技术引发了艺术家的抗议,他们担心它会取代他们或不道德地复制他们的风格,引发了关于未经版权持有人同意使用作为训练数据的被抓取图像的版权侵权的诉讼,以及关于美国版权办公室和美国地方法院对版权的新裁决。

作为对这些争议的回应,OpenAI 表示,DALL-E 3 将拒绝要求以在世艺术家风格制作图像的请求。OpenAI 还提供了一个表单,供创作者选择不让他们的图像用于训练未来的模型。这些措施似乎不太可能满足那些通常认为 AI 训练应该仅限于选择加入而不包含在默认图像数据集中的艺术家。

目前,美国的版权政策规定,纯粹由 AI 生成的艺术作品无法获得版权保护,因此使用 DALL-E 3 创建的任何图像都将属于公有领域。尽管 OpenAI 没有明确承认这一点,但它表示「您使用 DALL-E 3 创建的图像属于您,您无需我们的许可即可重新印刷、销售或制作商品。」这与去年 OpenAI 根据拥有所有生成物权的许可限制 DALL-E 2 图像使用的情况有了显著变化。

关于安全性,OpenAI 表示,与 DALL-E 2 一样,DALL-E 3 已经实施了关键字和图像检测过滤器,以限制其生成暴力、性或令人讨厌的内容。该系统还被编程拒绝生成涉及具名公众人物的请求,这一点在竞争的 AI 图像生成器 Midjourney 生成唐纳德·特朗普的虚假逮捕图像时曾引发问题。

OpenAI 表示,已经与被称为「红队成员」的专家合作,以识别和减轻潜在风险,如有害的偏见或制造宣传和虚假信息。OpenAI 没有提及其工具潜在用于以具有说服力的虚构来扭曲历史记录,尽管它表示正在尝试使用「来源分类器」工具,该工具可以帮助确定图像是否由 DALL-E 3 生成。

OpenAI 表示,这款 AI 图像生成器正在进行封闭测试。计划通过 API 在十月提供给 ChatGPT Plus 和企业客户,并在今年晚些时候在实验室中提供。

举报

  • 相关推荐
  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

  • AI日报:腾讯发布设计智能体Ardot;千问5月20日将发布重大模型;OpenAI推出ChatGPT个人理财工具

    本期AI日报聚焦八大热点:腾讯发布AI设计平台Ardot,一句话生成可编辑设计稿并一键转代码;通义千问“重量级”大模型将于5月20日阿里云峰会亮相,实现全面升级;AI大模型在基层警务中落地,豆包助力破获柴油盗窃案;Google I/O大会将推出Gemini 4.0等创新产品;索尼澄清Xperia 1XIII的AI相机助手仅提供拍摄建议;OpenAI推出ChatGPT个人理财工具,结合GPT-5.5支持连接银行账户;中国大模型周调用量连续三周超越美国,腾讯Hy3 preview以2.66万亿Token领先;红果短剧回应取消AI仿真人剧本保底传闻,称部分剧本仍保留保底政策。

  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • ROG Xbox Ally X20 搭载谷粒GuliKit TMR 摇杆,双方合作进一步深化

    谷粒科技GuliKit宣布其TMR电磁摇杆技术已应用于ROG最新发布的Xbox Ally X20掌机,双方合作进一步深化。该技术采用非接触式电磁感应方案,解决了传统碳膜电位器摇杆的漂移问题,提升了稳定性和寿命。此前谷粒已为ROG提供官方授权维修替换模块,此次直接应用于整机核心部件,展现了其行业领先地位。谷粒持续研发电磁摇杆技术,并已为Steam Deck、Switch等多类掌机及游戏控制器提供元件供应和定制化解决方案,未来将继续推动游戏操控体验升级。

  • DAU已死,Token无用:李彦宏用DAA终结了AI的度量衡之争

    ​今年4月,AI行业出现了一组让投资人坐立难安的数据:Anthropic年化营收突破300亿美元,正式超过OpenAI的约250亿美元。 但反常的是,据第三方机构估算,Claude的月活用户仅约为ChatGPT的2.44%。以及,Anthropic的模型训练投入只有OpenAI的四分之一。 更低的投入、更少的月活,却做到了更高的收入。 按移动互联网的DAU(日活用户数)铁律:用户规模越大、网络效应越强、商业化效率越

  • CallFay GEO & Studio 新品发布会圆满举行

    CallFay在深圳举办“三虾万物·AI共生”新品发布会,推出CallFay Studio和CallFay GEO两大产品,聚焦AI内容生产与搜索可信占位。来自腾讯云、阿里云、火山引擎等行业伙伴围绕AI技术趋势、电商经营变革等展开交流。CallFay致力于构建从“被搜索”到“被成交”的企业全域智能经营闭环,通过产品矩阵降低AI应用门槛,助力商家实现数字化增长。

  • 自变量开源 Wall-OSS-0.5,全球领先首次实现“预训练”比肩“后训练”

    自变量机器人今日正式开源具身基础模型Wall-OSS-0.5,全球首次实现无需下游任务后训练,预训练模型直接部署至机器人即可完成搬运、分拣、整理绳索等多种操作任务,在部分任务上零样本泛化表现接近常规微调水平。该模型通过梯度桥、视觉对齐动作分词器、动作空间监督流匹配和DMuon优化器四项改进,让主干网络真正掌握动作能力而非依赖外挂模块,在十余个真实机器人任

  • 纽约大学阿布扎比分校成功研发实时手语翻译系统ChatSign

    纽约大学阿布扎比分校推出ChatSign商业化AI系统,可实时将口语翻译成手语,帮助全球数百万听障人士实现顺畅沟通。该系统由教授Yi Fang领衔研发,已支持阿拉伯语和英语翻译为美式手语和阿联酋手语,并计划扩展双向翻译功能。自2024年创立以来,ChatSign快速从科研概念发展为功能性原型,已获专利保护,并在多项国家级活动中亮相。未来10年内,团队计划将设备推广至全球,推动无障碍沟通和社会共融。

  • OpenAI开出44.5万美元年薪招聘安全研究员:要求有品位、有策略性

    OpenAI近期发布了一则安全研究员招聘启事,年薪高达29.5万至44.5万美元,旨在寻找具备强大技术执行力的人才,以支持递归式自我改进的准备工作”。 招聘中特别注明:这一岗位尤其需要良好的品位与策略判断。”OpenAI这一独特的措辞,恰恰反映了其安全团队的工作性质不仅依赖工程技术,更考验人的判断力。 该职位希望培养出能够突破现有思维框架、提前识别尚未完全显�

  • 618开门红客流量同比增长60% 618京东MALL成线下狂欢主场

    618期间,京东MALL在上海、香港、沈阳三地新店开业,全国门店将达30家,成交额同比增长53%、客流增长60%。门店以沉浸式体验为核心,融合机器人、适老科技等前沿技术,打造电竞赛区、咖啡工坊等主题区,提供线下体验、线上下单的全链路服务。同时推出多重优惠,如国家消费补贴、送装一体服务等,引领实体零售新潮流。

今日大家都在搜的词: