首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

OpenAI CEO:GPT-5会很特别 可能类似于一个 “虚拟大脑”

2024-05-17 08:50 · 稿源:站长之家

划重点:

🔹 GPT-4o 是一款可跨文本、视频、音频进行推理的多模态大模型,具有低延迟和拟人化声音的特点。

🔹 GPT-4o 的应用场景广泛,可帮助开发人员、医生和听力障碍者等不同群体提升工作效率和生活质量。

🔹 GPT-5将是一种非常特别的产品,可能会采用新的名称和功能,更像是一种能处理各种任务的虚拟大脑”。

站长之家(ChinaZ.com)5月17日 消息:OpenAI 首席执行官 Sam Altman 在接受采访时透露了 GPT-4o 和 GPT5的一些信息。GPT-4o 是一款多模态大模型,可以跨文本、视频和音频进行推理。Sam Altman表示,他早就有用语音控制计算机的想法,而 GPT-4o 的综合推理能力将带来所未有的用户体验。相比现有的语音助手,如苹果的 Siri,GPT-4o 更自,并在语义理解方面表现出色。

AI chatGPT 人工智能

图源备注:图片由AI生成,图片授权服务商Midjourney

Altman 提到,他在体验 GPT-4o 时,发现其中一个令惊喜的用例是能够在一个平台上完成许多需要频繁切换应用和浏览器才能完成的任务,如实时翻译、语音交互和视频分析等。对于依赖保持专注和效率的开发人员和专业人来说,这是一个巨大的改变。

GPT-4o 具有低延迟的特点,平均延迟只有200300毫秒左右。这种低延迟使得 GPT-4o 能够应用于实时翻译、医学图像解析医疗记录分析等领域。

Altman 表示,医学领域将是 GPT-4o 的最大受益群体之一关于 GPT-5,Altman 透露,GPT-5将是一种非常特别的产品,可能会采用新的名称。他表示,GPT-5可能类似于一个 “虚拟大脑”,能够帮助用户处理各种任务。与之前的 GPT 列产品相比,GPT-5将是一次巨大的尝试。

GPT-4o 和即将发布的 GPT-5展示了 OpenAI 在人工智能领域的创新和突破。这些多模态大模型将为带来更智能、更高效的体验,为不同领域的人群提供更好的服务和帮助。

举报

  • 相关推荐
  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • 百度文心大模型X1.1正式发布:超越DeepSeek R1、打平GPT-5

    今天,在WAVE SUMMIT深度学习开发者大会2025上,百度文心大模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。 百度王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架。 一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 魅族StarV Snap AI拍照眼镜发布:售价1999 元起

    今日下午魅族22新品发布会上,一款名为StarV Snap的AI拍摄眼镜成为全场焦点。这款突破传统智能眼镜形态的产品以39克超轻人因工学设计惊艳亮相,通过50项人体工程学优化实现重量均匀分散,彻底解决"丑、重、硌"的行业痛点,鼻梁、耳部无压迫感的设计支持全天候舒适佩戴。 外观采用经典框型设计,磨砂质感镜框不仅时尚百搭适配多种脸型,更具备防指纹沾染特性,

  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • AI日报:国产版Nano Banana?即梦图片4.0发布;阿里巴巴发布 Qwen3-Max-Preview;上海重磅发布AI广告扶持政策

    AI日报栏目聚焦人工智能领域最新动态。主要内容包括:即梦图集4.0发布,新增文生图、图像编辑等功能;阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview;小米AI眼镜上线支付宝“看一看”支付功能;微软开源14B参数模型rStar2-Agent在数学推理领域表现突出;MiniMax启动股权激励计划覆盖核心员工;谷歌明确Gemini使用限制,免费用户每日最多5次提示;上海发布AI广告扶持政策,最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

  • AI能力获权威认可,易鑫荣登“2025 AI Era企业创新大奖TOP55”

    易鑫集团凭借突出的科技创新能力及多项AI技术落地成果,荣登“2025AI+Era企业创新大奖TOP55”榜单,成为榜单上唯一的汽车金融科技领域代表。该奖项由新智元发起,旨在评选AI领域具有卓越市场竞争力和创新力的标杆企业。易鑫自研的AI技术已全面应用于汽车金融全场景,显著提升服务效率与用户体验,并通过科技解决方案赋能海内外合作伙伴,展现出优秀的商业化落地与跨区域扩展能力。公司将持续推进AI创新与业务深度融合,助力合作伙伴和用户共享科技红利。

今日大家都在搜的词: