首页 > 热点 > 关键词  > OpenAI最新资讯  > 正文

OpenAI发布旗舰大模型GPT-4o:免费试用 价格五折速度提高一倍

2024-05-14 07:47 · 稿源:站长之家

GPT-4o具体特性一览:

  1. GPT-4o模型发布:OpenAI发布了GPT-4o模型,其中"o"代表Omni,意为全能。该模型能够接受文本、音频和图像的任意组合作为输入,并生成相应的文本、音频和图像输出。

  2. 免费开放:GPT-4o的所有能力将免费向所有用户开放,但新语音模式会在未来几周内优先对ChatGPT Plus会员开放。

  3. API开放:GPT-4o向开发者开放了API,与GPT-4Turbo相比,价格减半,速度提升2倍,速率限制高出5倍。

  4. 零延迟实时语音交互:能够进行自然、真实、富有情感的语音交互。

  5. 视觉传达内容:通过摄像头视觉传达内容,解决数学题和解析图形报表。

  6. 编程助手:提供实时编程辅助,提高编程效率。

  7. 视频通话情绪分析:能够实时分析面部情绪。

  8. 同声传译:支持多国语言的同声传译。

  9. 性能提升:GPT-4o在文本、推理和编码智能方面达到了GPT-4Turbo级别的性能,并在多语言、音频和视觉能力上设定了新的标准。

站长之家(ChinaZ.com)5月14日 消息:今日凌晨,OpenAI发布了最新旗舰大模型GPT-4o。这款全能AI不仅免费可用,而且具备横跨听图片、看图片、说图片的多项能力,为用户带来如视频电话般丝滑流畅的交流体验。

微信截图_20240514073937.png

OpenAI表示,GPT-4o不仅在功能上有所突破,更令人惊喜的是,它将向所有用户免费开放,包括之前仅为ChatGPT Plus会员提供的功能。此外,GPT-4o的新语音模式将在接下来的几周内首先对会员用户开放试用。

微信截图_20240514074728.png

据悉,GPT-4o(“o”代表“omni”)凭借其Omni(全能)之名,展现了其惊人的实力。无论是文本、音频还是图像,GPT-4o都能轻松处理,并生成相应的输出。更为令人震撼的是,它能在极短的时间内对音频输入做出反应,其速度之快几乎与人类对话中的反应一致。

微信截图_20240514075140.png

首先,GPT-4o实现了零延迟的实时语音交互,其表现自然、真实,充满情感。在演示中,当演示者表现出紧张情绪时,GPT-4o能够迅速识别并给予安慰和指导。此外,GPT-4o还能够根据要求调整语气和音调,甚至在被要求时,能够以机器人的声音或唱歌的形式来讲述故事。

与之前的模型相比,GPT-3.5和GPT-4在语音模式下的平均延迟时间分别为2.8秒和5.4秒,这无疑会影响对话的流畅性。而GPT-4o则无需先将语音转录为文本,因此能够更直接地理解和响应语音中的语气、音调等信息。

微信截图_20240514082057.png

除了语音交互,GPT-4o还能通过视觉和语音的结合进行多模态交互。例如,在发布会上,OpenAI展示了GPT-4o如何通过摄像头视觉解析图形报表,帮助用户解决数学问题。

微信截图_20240514081928.png

在编程辅助方面,GPT-4o的实时交互能力也得到了显著提升。它能够实时检查代码,解释代码的功能,并指导用户如何调整代码以获得期望的结果。

此外,GPT-4o还能够进行视频通话,并实时分析面部情绪。在演示中,GPT-4o能够准确地识别并响应演示者的情绪状态。

在语言能力方面,GPT-4o支持超过50种语言,并在质量和速度上都有所提升。在官方演示中,GPT-4o成功实现了英语和西班牙语之间的实时同声传译。

尽管GPT-4o在人机交互方面取得了革命性的进步,但它并不是GPT-5。OpenAI的首席技术官Mira Murati在直播中提到,GPT-4o是GPT-4模型的一个迭代版本,它在文本、语音和视觉方面的能力都有所提升。

OpenAI的首席执行官Sam Altman也表示,GPT-4o是一个"原生多模态"模型,它在文本、视觉和音频方面进行了端到端的训练,所有输入和输出都由同一个神经网络处理。

微信截图_20240514080127.png

GPT-4o的强大不仅体现在其全面的能力上,更在于其高效的API服务。为了让更多用户能够轻松使用GPT-4o,OpenAI提供了价格打五折、速度提高一倍、单位时间调用次数增加五倍的API服务。这无疑将极大推动GPT-4o在各行各业的应用和发展。

最后,OpenAI 还宣布将推出 ChatGPT 桌面版应用程序,首先向 Plus 用户推出 macOS 应用,未来计划推出 Windows 版本。

举报

  • 相关推荐
  • 大家在看
  • Clay Filter AI:将您的角色照片转换成粘土动画风格的图像

    粘土 AI 是一款 AI 工具,可以将照片转换成粘土动画风格的图像。通过分析面部特征,生成逼真的效果,提供灵活的编辑功能。价格定位为免费使用。使用比较简单,上传你的照片并提交,稍等10-20 秒可以获得粘土动画风格的图像。

  • TopMixLabs:在线AI视频动画生成工具

    TopMixLabs 是一个 AI 动画制作工具,通过上传图片,用户可以轻松地将图像转换为专业级动画,适用于各种规模的企业,提升品牌形象。使用简单,只需要4张照片,上传稍等10 -20分钟左右,即可以生成高质量的动画,生成的动画支持下载mp4格式,而且在平台上创建的动画用于个人和商业目的。

  • StartKit.AI:快速搭建AI创业项目

    StartKit.AI是一个旨在帮助开发者快速构建AI项目的在线平台。它提供了一个包含所有所需功能来发布SaaS产品的AI样板,无需AI经验即可使用。该平台由James和Danielle开发,他们拥有超过10年的SaaS产品开发经验,并成功运营着AI产品Ellie。StartKit.AI集成了30多个模块和超过8000行代码,提供了先进的AI特性,如聊天、图像、文本、语音、翻译和内容审核等。此外,它还包括了OpenAI的所有功能,并支持创建自己的ChatGPT克隆体。产品定位于帮助开发者快速启动AI项目,保持技术领先,并支持通过Stripe进行产品变现。

  • Cressi:AI驱动的个性化购物助手

    Cressi是一个由AI驱动的个性化购物助手,旨在通过分析用户的搜索历史、兴趣、联系人和日历等信息,提供定制化的购物建议。Cressi不仅能够理解用户的偏好,而且能够随着用户生活方式的变化而不断进化,提供真正人性化的购物体验。Cressi致力于使购物更加个性化、高客户满意度,并减少浪费,以实现更有意义和可持续的购物方式。

  • Decks:一款专业的笔记应用,助你快速掌握任何学科

    Decks是一款专为学习设计的应用,它通过创新的笔记方式帮助用户更快地掌握知识。用户可以免费开始使用,并在14天后选择月度或年度订阅。Decks提供每月8美元或每年79美元的订阅选项。

  • AutoPilotI18n:AI驱动的国际化工具 简化i18n流程。

    AutoPilotI18n 是一款利用 AI 技术提供精确翻译的国际化工具,可自动化翻译任务,简化 i18n 流程。其主要优点在于精确翻译、多框架支持、高效工作流程,适用于 React、Vue、Angular 等。AutoPilotI18n 定价透明,提供免费和付费版本。

  • Docu Dig:AI驱动的智能文档搜索与洞察

    Docu Dig是一个利用尖端AI技术提供安全、高效的文档内容搜索和洞察的商业解决方案。它通过先进的加密技术保护数据安全,提供上下文智能搜索,与传统搜索方法相比,能够提供更准确的文档洞察,提高团队效率,并改善信息获取。此外,它还支持团队协作,允许团队成员在共享文档上协作,提高工作效率。适用于需要处理大量文档的行业,如法律、医疗和金融领域。

  • V-Express:生成受控于参考图像、音频和V-Kps序列的头像视频。

    V-Express是一个由腾讯AI实验室开发的头像视频生成模型,它通过一系列渐进式丢弃操作平衡不同的控制信号,使得生成的视频能够同时考虑姿态、输入图像和音频。该模型特别针对音频信号较弱的情况进行了优化,解决了在控制信号强度不同的情况下生成头像视频的挑战。

  • Frontly:无代码构建AI驱动的应用程序

    Frontly 是一个创新的平台,它允许用户通过简单的拖放操作和AI技术,无需编程知识即可创建功能强大的应用程序。它的主要优点在于快速开发、高度定制化和易于使用,非常适合初创公司、中型企业以及需要快速迭代和测试新想法的团队。

  • Roadway:为增长营销量身定制的分析和自动化平台

    Roadway是一个专注于增长营销的分析和自动化平台,旨在帮助企业快速、高效地扩大收入增长。它通过数据驱动的分析和洞察自动化,帮助企业专注于关键的增长指标和杠杆。Roadway提供了一个个性化的增长营销助手,使用AI技术进行自动化的指标和漏斗分析,并提供定制化的行动建议。此外,它还允许用户通过自助服务分析,快速创建仪表板、报告,并做出数据驱动的决策。Roadway的分析是仓库原生的,可以快速连接数据仓库中的基本表格,创建关键指标和增长杠杆的语义层。

  • Tykr:股票筛选和教育平台一体化,助您自信管理投资。

    Tykr是一个结合了股票筛选器和教育平台的应用程序,旨在帮助用户自信地管理自己的投资。自2020年以来,Tykr通过其产品、服务和教育帮助成千上万的投资者做出更好的投资决策。

  • SDXL Flash:高效能的文本到图像生成模型

    SDXL Flash是由SD社区与Project Fluently合作推出的文本到图像生成模型。它在保持生成图像质量的同时,提供了比LCM、Turbo、Lightning和Hyper更快的处理速度。该模型基于Stable Diffusion XL技术,通过优化步骤和CFG(Guidance)参数,实现了图像生成的高效率和高质量。

  • Jector:AI 创建工具,打造令人惊叹的产品照片。

    Jector是一个AI创作工具,专注于为产品摄影提供高质量的背景生成服务。它通过简化AI设置,提供独立的生成环境插槽,以及基于节点的图像生成历史记录,使得用户能够轻松创建和合成产品图像。Jector的主要优点包括无需复杂设置即可开始使用,提供简单但高度灵活的生成选项,自动产品合成,以及额外的清除和放大功能。此外,它还提供无限保存和下载功能,让用户可以轻松地为产品生成自己的心情历史。

  • Spon:一站式社区构建平台,管理活动、社区和成员。

    Spon是一个专为线下社区构建者设计的全功能平台,由人工智能提供支持。它允许用户从单一界面管理活动、社区和成员。它提供了多种工具来促进社区成员之间的互动,如即兴活动、有意义的讨论和专门的聊天。Spon还提供了社区发现、兴趣匹配和基于位置的搜索功能,帮助用户扩大社区影响力。此外,Spon还提供了一个内置钱包和真实奖励系统,鼓励社区领导者通过他们的努力获得认可和奖励。Spon的愿景是超越事件本身,强调社区的支持、友谊、勇气、好奇心、联系和爱。

  • ChatTTS:一个用于文本到语音转换的开源项目。

    ChatTTS是一个开源的文本到语音转换(TTS)模型,它允许用户将文本转换为语音。该模型主要面向学术研究和教育目的,不适用于商业或法律用途。它使用深度学习技术,能够生成自然流畅的语音输出,适合研究和开发语音合成技术的人员使用。

  • Doly for iPhone:快速轻松生成出色的3D产品视频。

    Doly是一款为iPhone 11及以上版本设计的应用程序,它允许用户通过简单的操作生成高质量的3D产品视频。这款应用通过提供一系列3D模板,使得用户能够快速创建出吸引人的产品展示视频,从而提升产品在社交媒体、广告或产品页面上的呈现效果。Doly的主要优点包括易用性、成本效益和高效的视频生成速度。

  • Streaks 66:66天习惯养成助手,AI智能指导。

    Streaks 66是一款习惯追踪应用程序,旨在帮助用户通过66天的挑战来建立持久的日常习惯。它提供了不同难度模式以适应不同用户的需求,并通过集成的AI习惯教练为用户提供个性化建议、激励和关于习惯和目标的洞察。此外,该应用程序还支持设置提醒、与朋友和家人分享习惯进展以及跨设备同步数据。

  • ChatGPT Notepad:在线文本编辑器,提供文本编辑、保存、复制、剪切等功能。

    ChatGPT Notepad是一款在线文本编辑器,旨在帮助用户高效地编辑和处理文本内容。它支持基本的文本编辑功能,如保存、复制、剪切等,同时提供全屏模式和大小写转换等高级功能。该产品重视用户隐私保护,不使用第三方跟踪工具,确保用户数据安全。

  • InternLM-Math-Plus:双语开源数学推理大型语言模型。

    InternLM-Math-Plus 是一个最新的双语(英文和中文)开源大型语言模型(LLM),专注于数学推理,具有解决、证明、验证和增强数学问题的能力。它在非正式数学推理(如思维链和代码解释)和正式数学推理(如LEAN 4翻译和证明)方面都有显著的性能提升。

  • Selfarama:用AI将孩子的肖像与画家相结合 生成书籍

    Selfarama 是一款教育图书产品,通过将孩子与历史上最伟大的画家联系起来,帮助他们学习艺术史知识。产品包含定制的孩子肖像画和通俗易懂的教育文本。

今日大家都在搜的词: