OpenAI或将推出多模态模型GPT-Vision和Gobi，与谷歌Gemini竞争

2023-09-20 11:42 · 稿源：站长之家

文章概要:
OpenAI 正准备推出 GPT-4的图像理解，这是一种名为“GPT-Vision”的多模态功能，以使该模型得到更广泛的应用，以与谷歌计划的 Gemini 多模态 AI 模型竞争。
此功能可以为 GPT-4启用新的基于图像的应用程序，例如生成与图像匹配的文本。
OpenAI 还在开发一种新的 AI 模型，代号为“Gobi”，该模型从一开始就被设计为多模式，并有可能成为 GPT-5。

站长之家(ChinaZ.com) 9月20日消息:谷歌即将发布 Gemini，这是一种多模态语言模型，可能会挑战 OpenAI 的 GPT-4的领导地位。

但据报道 OpenAI 正在准备做出适当的回应，该公司计划通过引入名为“GPT-Vision”的图像理解功能来应对Gemini的竞争。

据《The Information》报道，GPT-4的图像理解功能将被命名为“GPT-Vision”。这一多模态功能最初是在GPT-4发布会上介绍的，并成为了演示的焦点之一。GPT-4展示了基于网页绘图生成网页代码的能力，但一般用户尚无法获得这一图像理解功能。据称，主要是OpenAI担心该功能可能被滥用，例如用于面部识别等用途，因此对其进行了限制。

OpenAI，ChatGPT，人工智能，AI

GPT-Vision的推出将使GPT-4具备更广泛的图像应用能力，例如生成与图像内容相关的文本。这将为用户提供更多创造性的应用可能性，也能够满足多样化的需求。

另外，还有传闻称OpenAI正在开发DALL-E3，并有可能将其集成到GPT-4中。与GPT-Vision的发布相结合，这意味着OpenAI正不断拓展GPT-4的功能，尤其是在图像处理领域。DALL-E3生成的第一批图像据称已经取得了显著的进步，这将进一步提升GPT-4的吸引力。

OpenAI计划在11月6日举行的OpenAI一日开发者大会上宣布GPT-4的新功能。尽管OpenAI首席执行官Sam Altman没有透露太多细节，但他表示将会有“伟大的东西”，这引发了广泛的期待。

The Information还报道称，OpenAI 还在考虑一种新的 AI 模型，代号为“Gobi”，该模型从一开始就被设计为多模态。Gobi的训练还没有开始，有机会成为GPT-5。

（举报）

OpenAI或将推出多模态模型GPT-Vision和Gobi，与谷歌Gemini竞争

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

彭博社：比起ChatGPT，苹果siri前负责人更青睐谷歌gemini

OpenAI 或将推出“使用ChatGPT登录”功能，支持第三方应用接入

高考数学全卷重赛！一道题难倒所有大模型，新选手Gemini夺冠，豆包DeepSeek并列第二

荐Gemini接管搜索、全家桶秒变通用Agent ，以及Google Glass is so back！

谷歌I/O大会全汇总：Gemini升级、AI搜索、Android XR等重磅更新

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

荐超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

OpenAI 推出首款成熟编程 AI 代理 Codex

热文

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

点击已死？“AI引用”才是流量未来，SEO正在被SAO、AEO取代

李世石：AI不会“解读”……直觉依然属于人类！

苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

前OpenAI研究员：有时，ChatGPT为了“自救”，会选择牺牲用户

苹果举行WWDC 25开发者大会 iOS 26更新汇总

iOS26的这五大“新功能”，我在安卓机上已经用了好几年！

苹果公布 Intel Mac 支持终止时间表，Rosetta 2 也将逐步淘汰

格力否认董明珠孟羽童直播是策划：就是一次很自然的会面

从心脏、到血管……3D打印开启“器官替换”时代

无缝且安全的密钥导入、导出功能将登陆苹果系统

站长商机