首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI或将推出多模态模型GPT-Vision和Gobi,与谷歌Gemini竞争

2023-09-20 11:42 · 稿源:站长之家

文章概要:

OpenAI 正准备推出 GPT-4的图像理解,这是一种名为“GPT-Vision”的多模态功能,以使该模型得到更广泛的应用,以与谷歌计划的 Gemini 多模态 AI 模型竞争。

此功能可以为 GPT-4启用新的基于图像的应用程序,例如生成与图像匹配的文本。

OpenAI 还在开发一种新的 AI 模型,代号为“Gobi”,该模型从一开始就被设计为多模式,并有可能成为 GPT-5。

站长之家(ChinaZ.com) 9月20日 消息:谷歌即将发布 Gemini,这是一种多模态语言模型,可能会挑战 OpenAI 的 GPT-4的领导地位。

但据报道 OpenAI 正在准备做出适当的回应,该公司计划通过引入名为“GPT-Vision”的图像理解功能来应对Gemini的竞争。

据《The Information》报道,GPT-4的图像理解功能将被命名为“GPT-Vision”。这一多模态功能最初是在GPT-4发布会上介绍的,并成为了演示的焦点之一。GPT-4展示了基于网页绘图生成网页代码的能力,但一般用户尚无法获得这一图像理解功能。据称,主要是OpenAI担心该功能可能被滥用,例如用于面部识别等用途,因此对其进行了限制。

OpenAI,ChatGPT,人工智能,AI

GPT-Vision的推出将使GPT-4具备更广泛的图像应用能力,例如生成与图像内容相关的文本。这将为用户提供更多创造性的应用可能性,也能够满足多样化的需求。

另外,还有传闻称OpenAI正在开发DALL-E3,并有可能将其集成到GPT-4中。与GPT-Vision的发布相结合,这意味着OpenAI正不断拓展GPT-4的功能,尤其是在图像处理领域。DALL-E3生成的第一批图像据称已经取得了显著的进步,这将进一步提升GPT-4的吸引力。

OpenAI计划在11月6日举行的OpenAI一日开发者大会上宣布GPT-4的新功能。尽管OpenAI首席执行官Sam Altman没有透露太多细节,但他表示将会有“伟大的东西”,这引发了广泛的期待。

The Information还报道称,OpenAI 还在考虑一种新的 AI 模型,代号为“Gobi”,该模型从一开始就被设计为多模态。Gobi的训练还没有开始,有机会成为GPT-5。

举报

  • 相关推荐
  • 成都汇阳投资关于Sora 正式上线,多模态模型的里程碑

    事件12月10日,OpenAl正式上线Sora,并向包括美国在内的多数国家用户开放,用户可在OpenAI官网上体验Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的会员订阅方案中,用户无需额外付费。股市有风险,投资需谨慎。

  • 消息称OpenAI新模型GPT-5研发未达到预期:成本高昂 效果欠佳

    AI初创公司OpenAI开发其下一个主要模型GPT-5的努力正落后于计划,其结果还不能证明巨大的成本是合理的。OpenAI已经完成了至少两次大型训练运行,其目的是通过对大量数据的训练来改进模型。在Codeforces竞技编程中o3模型得分为2727分,甚至超过了OpenAI的首席科学家。

  • AI日报:支付宝推AI创意生成平台;谷歌王炸推理模型Gemini2.0 Flash Thinking;Runway支持插入中间帧;OpenAI准备o3推理模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、谷歌发布王炸推理模型Gemini2.0FlashThinking,挑战OpenAIo1谷歌近期推出的Gemini2.0FlashThinking模型在多模态推理领域展现出强大的能力,支持32,000个输入标记和8,000个输出标记,极大提升了处理复杂问题的效率。与前代产品相比,Falcon3的训练规模翻倍,展现出强劲的竞争力,尤其是在与其他主流开源模型的基准测试中表现优异。

  • AI日报:阿里通义开源多模态推理模型QVQ-72BOpenAI考虑自研人形机器人;QQ音乐上线首个AI大模型音效

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。

  • 智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

    12月28日,智象未来科技有限公司在安徽人工智能产业先导区启动仪式中,正式发布智象多模态生成大模型3.0版。启动仪式上,智象未来创始人兼首席执行官梅涛总结了2024年人工领域技术发展的五个标志性事件,分别是以Sora为代表的视觉生成物理世界模拟器、以ChatGPT4o为代表的多模态模型、以GPT-o1为代表的从预训练到后训练推理优化、多模态大模型赋能具身智能实现软硬件结合,以及人工智能学者荣获诺贝尔化学奖表明AI赋能科研范式变革。本次活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,共同打造集技术研发、产业化应用、市场推广于一体的生态体系。

  • 谷歌发力世界模型:从OpenAI挖来Sora核心负责人!

    谷歌正在组建一个新的团队,专注于开发可以模拟物理世界的人工智能模型。该团队的负责人是蒂姆布鲁克斯,他此前是OpenAI视频生成器Sora的联合负责人之一,后于2024年10月离开OpenAI,跳槽至谷歌的人工智能研究实验室谷歌DeepMind。Gemini是谷歌的旗舰AI模型系列,用于图像分析和文本生成等任务;Veo是谷歌的视频生成模型;Genie则是谷歌的基础世界模型,它支持用户通过文本、合成图像、照片甚至草图等方式,创造出具有高度可玩性的交互式环境和可控的虚拟世界。

  • 4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密

    微软又把OpenAI的机密泄露了??在论文中明晃晃写着:英伟达2024年初发布B200时,就摊牌了GPT-4是1.8TMoE也就是1800B,这里微软的数字更精确,为1.76T。论文中给OpenAI的mini系列,Claude3.5Sonnet也都附上了参数,总结如下:o1-preview约300B;o1-mini约100BGPT-4o约200B;GPT-4o-mini约8BClaude3.5Sonnet2024-10-22版本约175B微软自己的Phi-3-7B,这个不用约了就是7B虽然论文中后面也有免责声明:但还是有不少人觉得事情没这么简单。2025年的最新版本里,开源已经被去掉了。

  • ChatGPT重磅功能!支持AI Agent玩法,OpenAI加入智能体了

    今天凌晨2点,OpenAI开启了第11天的直播技术分享,对ChatGPT的应用程序进行了重磅升级,支持原生应用程序自动化协作功能。从OpenAI在直播中演示的案例来看,基本上与AIAgent功能差不多,尤其是在编程方面非常好。ChatGPT的协作功能已经在Mac应用程序中可以使用了,通过OptionSpace就能快速调用这个功能,并且占用的内存非常小,是一个不错的自动化协作助手。

  • 谷歌劈柴立军令状:必斩OpenAI,夺回第一!

    【新智元导读】谷歌CEO劈柴在年度战略会议上放出狠话,2025年将是AI领域生死存亡之年。一场足以改变AI未来走向的巅峰对决,即将在2025年全面打响。期待明年谷歌即将带来的礼物。

  • 成本暴降60% OpenAI宣布开放满血o1模型API

    从12月5日开始,OpenAI将在连续12个工作日直播,每天发布一款全新的应用或功能。今天是发布会的第9天,直播内容面向开发者,OpenAI正式发布o1模型的API,并对实时API进行大升级支持WebRTC。OpenAI的周活跃用户数量在今年8月刚刚突破2亿。

热文