OpenAI发布旗舰大模型GPT-4o：免费试用价格五折速度提高一倍

2024-05-14 07:47 · 稿源：站长之家

GPT-4o具体特性一览:

GPT-4o模型发布:OpenAI发布了GPT-4o模型，其中"o"代表Omni，意为全能。该模型能够接受文本、音频和图像的任意组合作为输入，并生成相应的文本、音频和图像输出。
免费开放:GPT-4o的所有能力将免费向所有用户开放，但新语音模式会在未来几周内优先对ChatGPT Plus会员开放。
API开放:GPT-4o向开发者开放了API，与GPT-4Turbo相比，价格减半，速度提升2倍，速率限制高出5倍。
零延迟实时语音交互:能够进行自然、真实、富有情感的语音交互。
视觉传达内容:通过摄像头视觉传达内容，解决数学题和解析图形报表。
编程助手:提供实时编程辅助，提高编程效率。
视频通话情绪分析:能够实时分析面部情绪。
同声传译:支持多国语言的同声传译。
性能提升:GPT-4o在文本、推理和编码智能方面达到了GPT-4Turbo级别的性能，并在多语言、音频和视觉能力上设定了新的标准。

站长之家（ChinaZ.com）5月14日消息:今日凌晨，OpenAI发布了最新旗舰大模型GPT-4o。这款全能AI不仅免费可用，而且具备横跨听图片、看图片、说图片的多项能力，为用户带来如视频电话般丝滑流畅的交流体验。

微信截图_20240514073937.png

OpenAI表示，GPT-4o不仅在功能上有所突破，更令人惊喜的是，它将向所有用户免费开放，包括之前仅为ChatGPT Plus会员提供的功能。此外，GPT-4o的新语音模式将在接下来的几周内首先对会员用户开放试用。

微信截图_20240514074728.png

据悉，GPT-4o（“o”代表“omni”）凭借其Omni(全能)之名，展现了其惊人的实力。无论是文本、音频还是图像，GPT-4o都能轻松处理，并生成相应的输出。更为令人震撼的是，它能在极短的时间内对音频输入做出反应，其速度之快几乎与人类对话中的反应一致。

微信截图_20240514075140.png

首先，GPT-4o实现了零延迟的实时语音交互，其表现自然、真实，充满情感。在演示中，当演示者表现出紧张情绪时，GPT-4o能够迅速识别并给予安慰和指导。此外，GPT-4o还能够根据要求调整语气和音调，甚至在被要求时，能够以机器人的声音或唱歌的形式来讲述故事。

与之前的模型相比，GPT-3.5和GPT-4在语音模式下的平均延迟时间分别为2.8秒和5.4秒，这无疑会影响对话的流畅性。而GPT-4o则无需先将语音转录为文本，因此能够更直接地理解和响应语音中的语气、音调等信息。

微信截图_20240514082057.png

除了语音交互，GPT-4o还能通过视觉和语音的结合进行多模态交互。例如，在发布会上，OpenAI展示了GPT-4o如何通过摄像头视觉解析图形报表，帮助用户解决数学问题。

微信截图_20240514081928.png

在编程辅助方面，GPT-4o的实时交互能力也得到了显著提升。它能够实时检查代码，解释代码的功能，并指导用户如何调整代码以获得期望的结果。

此外，GPT-4o还能够进行视频通话，并实时分析面部情绪。在演示中，GPT-4o能够准确地识别并响应演示者的情绪状态。

在语言能力方面，GPT-4o支持超过50种语言，并在质量和速度上都有所提升。在官方演示中，GPT-4o成功实现了英语和西班牙语之间的实时同声传译。

尽管GPT-4o在人机交互方面取得了革命性的进步，但它并不是GPT-5。OpenAI的首席技术官Mira Murati在直播中提到，GPT-4o是GPT-4模型的一个迭代版本，它在文本、语音和视觉方面的能力都有所提升。

OpenAI的首席执行官Sam Altman也表示，GPT-4o是一个"原生多模态"模型，它在文本、视觉和音频方面进行了端到端的训练，所有输入和输出都由同一个神经网络处理。

微信截图_20240514080127.png

GPT-4o的强大不仅体现在其全面的能力上，更在于其高效的API服务。为了让更多用户能够轻松使用GPT-4o，OpenAI提供了价格打五折、速度提高一倍、单位时间调用次数增加五倍的API服务。这无疑将极大推动GPT-4o在各行各业的应用和发展。

最后，OpenAI 还宣布将推出 ChatGPT 桌面版应用程序，首先向 Plus 用户推出 macOS 应用，未来计划推出 Windows 版本。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
GPT4o将免费使用！OpenAI发布GPT-4o

OpenAI宣布，其最新旗舰生成式AI模型GPT-4o即将亮相，并将于未来数周内分阶段集成至OpenAI的系列产品中。令人兴奋的是，GPT-4o将免费对所有用户开放，无需任何付费门槛。新的界面设计将让用户可以更加专注于与模型的协作无需在意界面本身。

OpenAI GPT-4o 人工智能
干翻所有语音助手！OpenAI全能模型GPT-4o发布丝滑交互如真人

OpenAI最新发布了其旗舰大模型GPT-4o，该模型不仅免费可用具备听、看、说的综合能力，提供丝滑流畅且无延迟的交互体验，仿佛与人进行视频通话一般。GPT-4o的特点全能输入输出:GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成相应的文本、音频和图像输出。随着技术的不断进步，我们可以期待GPT-4o在未来将带来更加丰富和创新的应用场景。

GPT-4o AI头条
微软宣布 GPT-4o 模型在 Azure OpenAI 上使用

微软宣布OpenAI最新发布的多模态模型GPT-4o现已可以在AzureOpenAI云服务中使用。GPT-4o是一款支持跨文本、视频、音频多模态推理的先进模型，其强大多模态解读和输出能力使其在各个领域都展现出巨大的潜力。将GPT-4o与客户系统相结合，可以为用户提供拟人实时的服务，并通过强大的AI分析能力为决策制定各种计划提供数据支撑。

GPT-4o AzureOpenAI AI头条
马斯克批评OpenAI的GPT-4o最新演示 “令人尴尬”

特斯拉和SpaceXCEO埃隆・马斯克在周二抨击了由SamAltman领导的OpenAI，称他们最新的人工智能模型发布活动让他感到“尴尬”有用户AshleyStClair在X上发帖称，通过OpenAI，人类现在可以让人工智能为他们实时感知现实，“我们可能刚刚用更糟糕的东西取代了后真相时代。”作为OpenAI的坚定批评者，马斯克回答说，该公司的“演示让我感到尴尬”。该报道中还提到了一位作者在社交媒体上的发言，指出OpenAI让人工智能可以实时感知现实，但可能将后真相时代替换为更糟糕的东西。

OpenAI GPT-4o AI头条
OpenAI发布GPT-4o：可免费开放使用语音对话媲美真人

在今天凌晨的OpenAI发布会上，最新升级的大模型GPT-4o正式发布。GPT-4o的o”代表omni”。OpenAI还推出了ChatGPT的桌面版应用，不过目前只有MacOS版本，Windows版要稍晚一些亮相。

OpenAI GPT-4o 人工智能
荐遥遥领先的GPT-4o，为什么要免费开放？

5月14日凌晨，OpenAI2024年春季发布会上线。这场发布会，表面看有点简陋，却是科技圈公认的魔法时刻。这也是大模型现在的两个方向。

GPT-4o
荐AI日报：OpenAI全能模型GPT-4o发布；阿里推自动化视频剪辑神器；AI作品会侵权吗？调研结果...;零一万物开源Yi-1.5模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、干翻所有语音助手！制造复杂性增加，2024年内存供应将持续紧张。

GPT-4o
GPT-4o再秀神操作，“复现”OpenAI总裁讲课，网友当真了

DALL-E!OpenAI总裁兼联合创始人Greg再次大秀GPT-4o操作，结果网友直接缅怀DALL-E。有使用过GPT-4o的朋友吗?欢迎在评论区分享你们的体验。

GPT-4o OpenAI
OpenAI一夜之间革了Siri和同传的命，GPT-4o五大核心能力炸场！

OpenAI真憋了个大的。美国当地时间5月13日上午10点，OpenAI春季发布会如约至，没有GPT-5，没有搜索引擎，但推出了一个新的旗舰模型:GPT-4o。看完今天OpenAI的发布，很难想象谷歌明天得拿出多大的杀手锏，才能摆脱“AI届汪峰”的命运。

GPT-4o OpenAI
荐外媒如何报道GPT-4o，有没有“炸裂”？

OpenAI宣布推出GPT-4o。该模型是GPT-4型号的更新版本，将向免费客户开放。每个人对炸裂有不同的理解，没有对错。

GPT-4o

Clay Filter AI:将您的角色照片转换成粘土动画风格的图像

粘土 AI 是一款 AI 工具，可以将照片转换成粘土动画风格的图像。通过分析面部特征，生成逼真的效果，提供灵活的编辑功能。价格定位为免费使用。使用比较简单，上传你的照片并提交，稍等10-20 秒可以获得粘土动画风格的图像。

图像处理艺术设计人工智能

TopMixLabs:在线AI视频动画生成工具

TopMixLabs 是一个 AI 动画制作工具，通过上传图片，用户可以轻松地将图像转换为专业级动画，适用于各种规模的企业，提升品牌形象。使用简单，只需要4张照片，上传稍等10 -20分钟左右，即可以生成高质量的动画，生成的动画支持下载mp4格式，而且在平台上创建的动画用于个人和商业目的。

AI 动画制作视频编辑

StartKit.AI是一个旨在帮助开发者快速构建AI项目的在线平台。它提供了一个包含所有所需功能来发布SaaS产品的AI样板，无需AI经验即可使用。该平台由James和Danielle开发，他们拥有超过10年的SaaS产品开发经验，并成功运营着AI产品Ellie。StartKit.AI集成了30多个模块和超过8000行代码，提供了先进的AI特性，如聊天、图像、文本、语音、翻译和内容审核等。此外，它还包括了OpenAI的所有功能，并支持创建自己的ChatGPT克隆体。产品定位于帮助开发者快速启动AI项目，保持技术领先，并支持通过Stripe进行产品变现。

AI SaaS 快速开发

Cressi:AI驱动的个性化购物助手

Cressi是一个由AI驱动的个性化购物助手，旨在通过分析用户的搜索历史、兴趣、联系人和日历等信息，提供定制化的购物建议。Cressi不仅能够理解用户的偏好，而且能够随着用户生活方式的变化而不断进化，提供真正人性化的购物体验。Cressi致力于使购物更加个性化、高客户满意度，并减少浪费，以实现更有意义和可持续的购物方式。

AI购物助手个性化推荐环保购物

Decks:一款专业的笔记应用，助你快速掌握任何学科

Decks是一款专为学习设计的应用，它通过创新的笔记方式帮助用户更快地掌握知识。用户可以免费开始使用，并在14天后选择月度或年度订阅。Decks提供每月8美元或每年79美元的订阅选项。

学习笔记视频

AutoPilotI18n:AI驱动的国际化工具简化i18n流程。

AutoPilotI18n 是一款利用 AI 技术提供精确翻译的国际化工具，可自动化翻译任务，简化 i18n 流程。其主要优点在于精确翻译、多框架支持、高效工作流程，适用于 React、Vue、Angular 等。AutoPilotI18n 定价透明，提供免费和付费版本。

AI 国际化多框架支持

Docu Dig:AI驱动的智能文档搜索与洞察

Docu Dig是一个利用尖端AI技术提供安全、高效的文档内容搜索和洞察的商业解决方案。它通过先进的加密技术保护数据安全，提供上下文智能搜索，与传统搜索方法相比，能够提供更准确的文档洞察，提高团队效率，并改善信息获取。此外，它还支持团队协作，允许团队成员在共享文档上协作，提高工作效率。适用于需要处理大量文档的行业，如法律、医疗和金融领域。

AI 文档搜索数据安全

V-Express:生成受控于参考图像、音频和V-Kps序列的头像视频。

V-Express是一个由腾讯AI实验室开发的头像视频生成模型，它通过一系列渐进式丢弃操作平衡不同的控制信号，使得生成的视频能够同时考虑姿态、输入图像和音频。该模型特别针对音频信号较弱的情况进行了优化，解决了在控制信号强度不同的情况下生成头像视频的挑战。

头像视频生成人工智能人机交互

Frontly:无代码构建AI驱动的应用程序

Frontly 是一个创新的平台，它允许用户通过简单的拖放操作和AI技术，无需编程知识即可创建功能强大的应用程序。它的主要优点在于快速开发、高度定制化和易于使用，非常适合初创公司、中型企业以及需要快速迭代和测试新想法的团队。

AI 无代码应用程序开发

Roadway:为增长营销量身定制的分析和自动化平台

Roadway是一个专注于增长营销的分析和自动化平台，旨在帮助企业快速、高效地扩大收入增长。它通过数据驱动的分析和洞察自动化，帮助企业专注于关键的增长指标和杠杆。Roadway提供了一个个性化的增长营销助手，使用AI技术进行自动化的指标和漏斗分析，并提供定制化的行动建议。此外，它还允许用户通过自助服务分析，快速创建仪表板、报告，并做出数据驱动的决策。Roadway的分析是仓库原生的，可以快速连接数据仓库中的基本表格，创建关键指标和增长杠杆的语义层。

增长营销数据分析自动化

Tykr:股票筛选和教育平台一体化，助您自信管理投资。

Tykr是一个结合了股票筛选器和教育平台的应用程序，旨在帮助用户自信地管理自己的投资。自2020年以来，Tykr通过其产品、服务和教育帮助成千上万的投资者做出更好的投资决策。

股票筛选投资教育自动化评估

SDXL Flash:高效能的文本到图像生成模型

SDXL Flash是由SD社区与Project Fluently合作推出的文本到图像生成模型。它在保持生成图像质量的同时，提供了比LCM、Turbo、Lightning和Hyper更快的处理速度。该模型基于Stable Diffusion XL技术，通过优化步骤和CFG（Guidance）参数，实现了图像生成的高效率和高质量。

文本到图像图像生成 AI艺术

Jector:AI 创建工具，打造令人惊叹的产品照片。

Jector是一个AI创作工具，专注于为产品摄影提供高质量的背景生成服务。它通过简化AI设置，提供独立的生成环境插槽，以及基于节点的图像生成历史记录，使得用户能够轻松创建和合成产品图像。Jector的主要优点包括无需复杂设置即可开始使用，提供简单但高度灵活的生成选项，自动产品合成，以及额外的清除和放大功能。此外，它还提供无限保存和下载功能，让用户可以轻松地为产品生成自己的心情历史。

AI生成产品摄影图像合成

Spon:一站式社区构建平台，管理活动、社区和成员。

Spon是一个专为线下社区构建者设计的全功能平台，由人工智能提供支持。它允许用户从单一界面管理活动、社区和成员。它提供了多种工具来促进社区成员之间的互动，如即兴活动、有意义的讨论和专门的聊天。Spon还提供了社区发现、兴趣匹配和基于位置的搜索功能，帮助用户扩大社区影响力。此外，Spon还提供了一个内置钱包和真实奖励系统，鼓励社区领导者通过他们的努力获得认可和奖励。Spon的愿景是超越事件本身，强调社区的支持、友谊、勇气、好奇心、联系和爱。

社区管理活动组织社交互动