首页 > AI头条  > 正文

OpenAI新项目Sora内测图像生成器,或将推出DALL-E 4?

2025-02-10 10:48 · 来源: AIbase基地

近日,OpenAI 发布了一则引人注目的消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。这个新功能让用户能够在视频和图像生成之间快速切换,提升创作的灵活性。

根据内部消息,Sora 将会增加一个隐藏的切换按钮,用户只需在提示栏中选择即可在两种模式之间切换。当选择图像生成时,系统会自动提示用户描述一幅图像。这一设计旨在简化用户操作,提高生成内容的相关性和质量。

image.png

除了图像生成功能的改进,Sora 还对其视频推送进行了重新分类。新推出的 “Best” 和 “Top” 类别将帮助用户更好地筛选和查找内容。“Best” 类别与目前的特色频道类似,而 “Top” 类别则可能根据用户点赞数或时间段对视频进行排名。这一分类的变化让人们对 Sora 的内容推荐机制充满期待。

image.png

对于 DALL-E3的用户来说,这一消息无疑让人兴奋,因为 DALL-E3自发布以来已经显得有些过时,特别是在与 Midjourney 等竞争对手相比时。尽管目前 Sora 的图像生成功能尚未正式推出,但左侧导航栏中的 “Images Internal” 类别已经引发了用户的好奇心。虽然目前这个类别主要用于视频推送,但未来也可能会提供图片生成的相关内容。

有人猜测,这次的图像生成模型或许会被称为 DALL-E4,然而 OpenAI 尚未对此进行确认。业内专家推测,Sora 中的图像生成器可能不会直接使用 DALL-E4,而是会依赖于现有的 “sora-turbo” 模型。此外,业内人士也指出,ChatGPT 尚未推出基于 GPT-4o 的多模态图像生成功能,因此此次 Sora 项目的推出将是一个值得关注的新进展。

值得注意的是,Sora 中的文本到图像生成器的代号被称为 “papaya”,让人对这个项目充满好奇与期待。在 DALL-E3发布一年半之后,下一代模型究竟会带来怎样的创新,令人不禁想要一探究竟。

  • 相关推荐
  • 微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法,提高信息隐藏完整性

    数字时代的信息安全需求催生了图像隐藏技术的持续演进。传统算法在密钥管理、抗攻击能力和认证机制方面存在固有缺陷,难以满足医疗、金融等领域的严苛安全要求。区块链技术的分布式账本特性与智能合约机制,为构建可信认证体系提供了新路径。微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法(Blockchain-based Reversible Image Steganography Algorithm,BRISA),通过融合混沌加�

  • 奥尔特曼称自己不适合担任CEO OpenAI上市后或卸任

    OpenAI首席执行官Sam Altman近日接受采访时透露,虽然公司正推进数万亿美元级的计算基础设施投资计划,但他对上市后继续担任CEO持保留态度。 Altman坦言,尽管主导着OpenAI多项战略级项目,但自认缺乏上市公司CEO所需的核心管理素质与市场敏感度。 他特别强调,上市企业领导者需具备应对复杂投资者关系与监管环境的综合能力,而自己可能并非最优人选。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • GPT5上线大翻车!用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

    OpenAI发布最强AI模型GPT-5,但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降,且官方突然下架GPT-4o等8个旧模型,导致付费用户抗议。部分用户对旧版产生情感依赖,认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升,但交互体验明显退步。CEO承认低估用户对旧版的喜爱,承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减,面临数据质量和算力成本限制。总体而言,GPT-5在技术指标进步的同时,牺牲了情感交互体验。

  • 第十三届互联网安全大会开幕:All In Agent

    2025年8月6日,第十三届互联网安全大会(ISC.AI2025)在北京国家会议中心开幕。本届大会以"All In Agent"为主题,聚焦智能体时代下的数字安全与人工智能前沿。360创始人周鸿祎指出,大模型必须进化成智能体才能成为生产力工具,并揭示了智能体演进的四个层级:从聊天助手到多智能体蜂群协作。360推出的安全智能体基于大模型,具备自主规划、工具调用等能力,可复制人类安全专家能力。在网络安全领域,智能体正形成颠覆性影响,360将推动全线产品智能化,用安全智能体重塑数字安全。周鸿祎强调"安全是数字化的底座,AI是数字化的巅峰",360将坚持"安全+AI"双主线发展。

  • GPT-5有望明天发布 OpenAI:免费无限使用

    OpenAI宣布将于太平洋时间7月4日上午10点(北京时间7月5日凌晨1点)举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM",引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能,但会设置防滥用阈值;Plus和Pro用户则可享受更智能的GPT-5服务,包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实,这将是AI爱好者的重大福利,也将进一步提升ChatGPT的实用性和用户体验。

  • OpenAI和科大讯飞,瞄准了同一件事

    OpenAI正式发布GPT-5大模型,距离GPT-4推出已29个月。GPT-5虽仍是当前最全面的模型,但性能提升未与主流模型拉开显著差距,部分场景甚至被Grok4和Claude+Opus4.1超越。OpenAI强调此次升级重点在于减少幻觉、提升指令遵循能力和降低模型谄媚性,而非单纯追求性能突破。与此同时,国产大模型代表星火X1也在7月25日升级,同样聚焦解决幻觉问题,在事实性幻觉和忠诚性幻觉治理上取得突破。全球顶尖大模型正从"能用"向"好用"转变,OpenAI和科大讯飞都通过多目标奖励机制和思维链监控等技术手段改善模型可靠性。星火X1已全面赋能教育、医疗、企业应用等行业,在复杂场景任务上满足用户核心需求。大模型产业已进入规模化落地关键期,中国人工智能产业正从追赶走向领先阶段。

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 博士水平的GPT-5依然翻车 OpenAI奥特曼:AGI已失去意义

    上周末OpenAI公司发布了传闻已久的GPT-5大模型,号称迄今为止最先进的人工智能模型,具备博士级别的智能水平。 GPT-5发布之后在多个榜单上确实刷榜了,包括编程、数学等,总计拿到了25个榜单的第一,评分表现很震撼。 然而上线之后,GPT-5的实际表现引发质疑,跑分第一不代表实际体验第一,甚至被不少用户认为表现倒退了,反应也变慢,这可能是OpenAI翻车最快的旗舰大�

今日大家都在搜的词: