OpenAI多模态AI系统GPT-Vision即将推出与谷歌Gemini竞争

2023-09-19 14:50 · 稿源：站长之家

站长之家(ChinaZ.com) 9月19日消息:据The Information报道，知情人士透露，鉴于谷歌上周开始向部分企业测试其多模态大模型Gemini，OpenAI希望抢占先机，推出自己的多模态AI系统。

OpenAI在3月份推出语言模型GPT-4时曾预览了多模态功能，但至今仅向为盲人提供服务的Be My Eyes公司开放。六个月过后，OpenAI准备大范围推出这款名为GPT-Vision的多模态系统。

gpt-4，OpenAI，ChatGPT Plus，人工智能

OpenAI之所以耽搁这么长时间，主要是担心新功能可能被不法分子滥用，例如自动识别验证码冒充人类，或者面部识别跟踪他人。不过OpenAI工程师似乎已解决围绕这项新技术的法律顾虑。当询问谷歌采取了哪些措施防止Gemini被滥用时，谷歌发言人提到该公司在7月做出负责任AI开发的承诺。

在GPT-Vision之后，OpenAI可能推出更强大的多模态模型代号Gobi。不同于GPT-4，Gobi从一开始就是作为多模态模型进行训练，但此模型似乎还未开始训练。

OpenAI积极推进多模态AI的商业化，与谷歌Gemini形成直接竞争，这标志着多模态AI进入实质应用阶段。业内人士认为，图像生成等视觉能力将增强AI系统的商业价值，OpenAI的GPT-Vision具有与谷歌抗衡的实力。AI领域两大巨头互相竞争有利于行业技术进步，消费者也将从中受益。

（举报）

相关推荐

关键词：

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

小鹏汽车在2025科技日宣布，将于2026年推出三款全栈自研L4级Robotaxi，同步开启试运营。该车型搭载4颗图灵AI芯片，算力达3000TOPS，配备第二代VLA模型，具备强大泛化学习能力，能自适应全球不同交通习惯。作为中国首款全栈自研Robotaxi，无需额外改装，不依赖高精地图即可实现量产。车辆提供两套智驾方案，分别侧重通勤效率与极致安全，并在六大关键系统采用双冗余设计，确保行驶安全。小鹏还将开放Robotaxi SDK，与高德地图等伙伴共建全球服务生态。

小鹏Robotaxi L4级自动驾驶全栈自研
OpenAI和微软的关系没那么糟，跟英伟达也没那么好

OpenAI的动作比所有人想象的都要快。上周二，OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议，结束了Azure长达六年的云服务独占模式。此前，OpenAI所有模型的训练、推理与部署都必须优先选择Azure，微软还享有优先购买权。宣布与Azure“分手”后不到一周，OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议，OpenAI将全面接入

OpenAI 云计算战略合作
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8
荐AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将推Nano Banana2

本期AI日报聚焦多领域突破：OpenAI视频应用Sora登陆安卓平台并引入付费角色功能；网易云音乐推出AI调音大师实现智能音效适配；字节跳动高薪布局人形机器人赛道；谷歌Gemini平台将升级图像生成技术；llama.cpp实现多模态革命；特斯拉秘密实验室通过行为数据训练机器人；上海首例AI著作权案宣判保护原创；微软推出自研图像生成器MAI-Image-1，在创意效率与质量间取得平衡。

OpenAI Sora Android
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent

今日大家都在搜的词：

热文

3 天
7天

OpenAI多模态AI系统GPT-Vision即将推出与谷歌Gemini竞争

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

荐OpenAI也来了，巨头为何决战AI浏览器？

小鹏将推出3款全球化Robotaxi 2026年同步开启试运营

OpenAI和微软的关系没那么糟，跟英伟达也没那么好

iPad mini 8外观巨变：去掉扬声器开孔

荐AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将推Nano Banana2

荐MiniMax让AI语音有了新基建

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

俞敏洪发文确认孙东旭离职：保持着良好的沟通

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机

OpenAI多模态AI系统GPT-Vision即将推出 与谷歌Gemini竞争

今日大家都在搜的词：

热文

站长商机

OpenAI多模态AI系统GPT-Vision即将推出与谷歌Gemini竞争