GPT-4o深夜炸场！AI实时视频通话丝滑如人类，Plus功能免费可用，奥特曼：《她》来了

2024-05-14 08:37 · 稿源：量子位公众号

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:梦晨克雷西，授权站长之家转载发布。

不开玩笑，电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。

现场直播的效果更是炸裂:

它能感受到你的呼吸节奏，也能用比以前更丰富的语气实时回复，甚至可以做到随时打断。

GPT-4o里的“o”是Omni的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。

这还是一份给所有人的大礼，GPT4-o与ChatGPT Plus会员版所有的能力，包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放!

（新语音模式几周内先对Plus用户开放）

在直播现场，CTO Murati穆姐说:这是把GPT-4级别的模型开放出去，其实她还谦虚了。

在场外，研究员William Fedus揭秘，GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一，im-also-a-good-gpt2-chatbot。

无论从网友上手体验还是竞技场排位来看，都是高于GPT-4-Turbo级别的模型了，ELO分数一骑绝尘。

而这样的超强模型也将提供API，价格打5折，速度提高一倍，单位时间调用次数足足是原来的5倍!

追直播的网友已经在设想可能的应用，可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了，有大胆想法的朋友，可以把你们的想法发在评论区了。

总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸，狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果，OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机，听到英语就翻译成意大利语，听到意大利语就翻译成英语。

发布会直播之外，总裁哥Brockman还发布了额外的5分钟详细演示。

而且是让两个ChatGPT互相对话，最后还唱起来了，戏剧感直接拉满。

这两个ChatGPT，一个是旧版APP，只知道对话，另一个则是新版网页，具备视觉等新能力。（我们不妨取Old和New的首字母，分别叫TA们小O和小N）

Brockman首先向小O介绍了大致情况，告诉她要和一个拥有视觉能力的AI对话，她表示很酷并欣然接受。

接着，Brockman让她稍作休息，并向小N也介绍情况，还顺带展示了小N的视觉能力。

只见打完招呼后，小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事，小N也感到很有趣。

接下来就是小O和小N相互对白的时间了，TA们依然是从Brockman的衣着开始聊起，小O不断提出新的问题，小N都一一解答。

接着，他们又谈论了房间的风格、布置和光线，甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。

如果你看了这段视频就会发现，画面中出现了一个女人在Brockman身后做了些恶搞的手势。

这可不是乱入，是Brockman和女人串通好，专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候，Brockman选择加入，直接问有没有看到什么不正常的地方。

结果是小N直接识破了Brockman的小伎俩，直接复述出了女人在他身后做小动作的场景，小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。

Brockman把这句话当成了夸赞，并对小O表示了感谢，还愉快地加入了TA们的对话。

之后是最后也是最精彩的部分，在Brockman的指挥下，小O和小N根据刚才聊天的内容，直接开启了对唱模式。

只过了简单几轮，衔接地就十分密切，而且旋律悠扬，音色也是和真人毫无二致。

最后视频以Brockman唱出的一句Thank you结束，在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

端到端训练，一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说，GPT-4o让人感觉像魔法一样，那么它是如何做到的呢?

非常抱歉，这次非但没有论文，连技术报告也不发了，只在官网Blog里有一段简短的说明。

在GPT-4o之前，ChatGPT语音模式由三个独立模型组成，语音转文本→GPT3.5/GPT-4→文本转语音。

我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。

这样一来，整个系统的延迟足足有2.8秒（GPT-3.5）和5.4秒(GPT-4)，而且丢失了大量的信息，它无法直接感受音调、多个说话者或背景噪音，也无法输出笑声、唱歌声，或表达情感。

GPT-4o则是跨文本、视觉和音频端到端训练的新模型，这意味着所有输入和输出都由同一个神经网络处理。

在语音翻译任务上，强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。

在视觉理解上，也再次反超Gemini1.0Ultra与对家Claude Opus

虽然技术方面这次透露的消息就这么多了，不过也有学者评价。

一个成功的演示相当于1000篇论文。

One More Thing

除了OpenAI带来的精彩内容之外，也别忘了北京时间5月15日凌晨，谷歌将召开I/O大会。

到时量子位将继续第一时间带来最新消息。

另外根据网友推测，GPT-4o这么强，全都免费开放了，这是劝大家不续订ChatGPT Plus了的意思吗?

那肯定不是啊～

鉴于OpenAI春节期间在谷歌发布Gemini1.5Pro后半小时左右用Sora狙击了一把，明天OpenAI还有新活也说不定呢?

直播回放

https://www.youtube.com/watch?v=DQacCB9tDaw

（举报）

相关推荐
大家在看

关键词：

GPT-4o

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐山姆-奥特曼怒喷谷歌，GPT-4o抢了Gemini风头

这些天的硅谷，乱成了一锅粥。OpenAICEO山姆-奥特曼直接在社交平台公开嘲讽谷歌的审美过于差劲，他表示:我努力不去过多思考我们的竞争对手，但我无法不去思考OpenAI和谷歌之间的美学差异。哪怕到了AI时代，这个法则也同样适用。

GPT-4o Gemini
GPT4o将免费使用！OpenAI发布GPT-4o

OpenAI宣布，其最新旗舰生成式AI模型GPT-4o即将亮相，并将于未来数周内分阶段集成至OpenAI的系列产品中。令人兴奋的是，GPT-4o将免费对所有用户开放，无需任何付费门槛。新的界面设计将让用户可以更加专注于与模型的协作无需在意界面本身。

OpenAI GPT-4o 人工智能
干翻所有语音助手！OpenAI全能模型GPT-4o发布丝滑交互如真人

OpenAI最新发布了其旗舰大模型GPT-4o，该模型不仅免费可用具备听、看、说的综合能力，提供丝滑流畅且无延迟的交互体验，仿佛与人进行视频通话一般。GPT-4o的特点全能输入输出:GPT-4o能够接受文本、音频和图像的任意组合作为输入，并生成相应的文本、音频和图像输出。随着技术的不断进步，我们可以期待GPT-4o在未来将带来更加丰富和创新的应用场景。

GPT-4o AI头条
荐遥遥领先的GPT-4o，为什么要免费开放？

5月14日凌晨，OpenAI2024年春季发布会上线。这场发布会，表面看有点简陋，却是科技圈公认的魔法时刻。这也是大模型现在的两个方向。

GPT-4o
OpenAI一夜之间革了Siri和同传的命，GPT-4o五大核心能力炸场！

OpenAI真憋了个大的。美国当地时间5月13日上午10点，OpenAI春季发布会如约至，没有GPT-5，没有搜索引擎，但推出了一个新的旗舰模型:GPT-4o。看完今天OpenAI的发布，很难想象谷歌明天得拿出多大的杀手锏，才能摆脱“AI届汪峰”的命运。

GPT-4o OpenAI
荐神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

这场等待「GPT-5」的游戏啥时候才能结束?GPT-5啥时候来?估计是AI领域最关心的问题之一了。是像Sora一样毫无预兆的发布是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。地址:https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99除了gpt2-chatbot，OpenAI今天还发布了一个消息，他们在2月份宣布的Memory功能，现在可供所有ChatGPTPlus付费用户使

GPT-5 AI领域 OpenAI
OpenAI神秘搞事，GPT-4.5默默上线？推理碾压GPT-4网友震惊，奥特曼笑而不语

【新智元导读】就在昨夜，整个AI社区都被一个神秘大模型震撼到了:它名为gpt2-chatbot，性能直接超越很多开源模型和GPT-4!网友们展开猜测，有说它是GPT-4.5的，有说是GPT-5的有人猜它是GPT-4Q*，或GPT-2Q*。奥特曼也卖起了关子:「我确实对gpt-2gpt2情有独钟。GPT-2最初的预训练放到今天仍然令人惊叹，比很多4年后的模型都好，这也未免太传奇了。

GPT
神秘大模型一夜刷屏，能力太强被疑GPT-4.5，奥特曼避而不答打哑谜

大模型话题王，再次易主。一个神秘模型突然杀入众人视野，能力超越一众开源模型，甚至包括GPT-4。这样一下子，是OpenAI匿名发布新模型炒作的可能性更大了一些。

GPT-4.5
荐外媒如何报道GPT-4o，有没有“炸裂”？

OpenAI宣布推出GPT-4o。该模型是GPT-4型号的更新版本，将向免费客户开放。每个人对炸裂有不同的理解，没有对错。

GPT-4o
荐OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

OpenAI正在秘密A/B测试下一代模型，实力超强被怀疑是GPT-4.5或GPT-5。就在奥特曼当谜语人暗示之后，两款新模型悄悄上线大模型竞技场。最近OpenAI的动向，都有点神秘。

OpenAI

Clay Filter AI:将您的角色照片转换成粘土动画风格的图像

粘土 AI 是一款 AI 工具，可以将照片转换成粘土动画风格的图像。通过分析面部特征，生成逼真的效果，提供灵活的编辑功能。价格定位为免费使用。使用比较简单，上传你的照片并提交，稍等10-20 秒可以获得粘土动画风格的图像。

图像处理艺术设计人工智能

TopMixLabs:在线AI视频动画生成工具

TopMixLabs 是一个 AI 动画制作工具，通过上传图片，用户可以轻松地将图像转换为专业级动画，适用于各种规模的企业，提升品牌形象。使用简单，只需要4张照片，上传稍等10 -20分钟左右，即可以生成高质量的动画，生成的动画支持下载mp4格式，而且在平台上创建的动画用于个人和商业目的。

AI 动画制作视频编辑

StartKit.AI是一个旨在帮助开发者快速构建AI项目的在线平台。它提供了一个包含所有所需功能来发布SaaS产品的AI样板，无需AI经验即可使用。该平台由James和Danielle开发，他们拥有超过10年的SaaS产品开发经验，并成功运营着AI产品Ellie。StartKit.AI集成了30多个模块和超过8000行代码，提供了先进的AI特性，如聊天、图像、文本、语音、翻译和内容审核等。此外，它还包括了OpenAI的所有功能，并支持创建自己的ChatGPT克隆体。产品定位于帮助开发者快速启动AI项目，保持技术领先，并支持通过Stripe进行产品变现。

AI SaaS 快速开发

Cressi:AI驱动的个性化购物助手

Cressi是一个由AI驱动的个性化购物助手，旨在通过分析用户的搜索历史、兴趣、联系人和日历等信息，提供定制化的购物建议。Cressi不仅能够理解用户的偏好，而且能够随着用户生活方式的变化而不断进化，提供真正人性化的购物体验。Cressi致力于使购物更加个性化、高客户满意度，并减少浪费，以实现更有意义和可持续的购物方式。

AI购物助手个性化推荐环保购物

Decks:一款专业的笔记应用，助你快速掌握任何学科

Decks是一款专为学习设计的应用，它通过创新的笔记方式帮助用户更快地掌握知识。用户可以免费开始使用，并在14天后选择月度或年度订阅。Decks提供每月8美元或每年79美元的订阅选项。

学习笔记视频

AutoPilotI18n:AI驱动的国际化工具简化i18n流程。

AutoPilotI18n 是一款利用 AI 技术提供精确翻译的国际化工具，可自动化翻译任务，简化 i18n 流程。其主要优点在于精确翻译、多框架支持、高效工作流程，适用于 React、Vue、Angular 等。AutoPilotI18n 定价透明，提供免费和付费版本。

AI 国际化多框架支持

Docu Dig:AI驱动的智能文档搜索与洞察

Docu Dig是一个利用尖端AI技术提供安全、高效的文档内容搜索和洞察的商业解决方案。它通过先进的加密技术保护数据安全，提供上下文智能搜索，与传统搜索方法相比，能够提供更准确的文档洞察，提高团队效率，并改善信息获取。此外，它还支持团队协作，允许团队成员在共享文档上协作，提高工作效率。适用于需要处理大量文档的行业，如法律、医疗和金融领域。

AI 文档搜索数据安全

V-Express:生成受控于参考图像、音频和V-Kps序列的头像视频。

V-Express是一个由腾讯AI实验室开发的头像视频生成模型，它通过一系列渐进式丢弃操作平衡不同的控制信号，使得生成的视频能够同时考虑姿态、输入图像和音频。该模型特别针对音频信号较弱的情况进行了优化，解决了在控制信号强度不同的情况下生成头像视频的挑战。

头像视频生成人工智能人机交互

Frontly:无代码构建AI驱动的应用程序

Frontly 是一个创新的平台，它允许用户通过简单的拖放操作和AI技术，无需编程知识即可创建功能强大的应用程序。它的主要优点在于快速开发、高度定制化和易于使用，非常适合初创公司、中型企业以及需要快速迭代和测试新想法的团队。

AI 无代码应用程序开发

Roadway:为增长营销量身定制的分析和自动化平台

Roadway是一个专注于增长营销的分析和自动化平台，旨在帮助企业快速、高效地扩大收入增长。它通过数据驱动的分析和洞察自动化，帮助企业专注于关键的增长指标和杠杆。Roadway提供了一个个性化的增长营销助手，使用AI技术进行自动化的指标和漏斗分析，并提供定制化的行动建议。此外，它还允许用户通过自助服务分析，快速创建仪表板、报告，并做出数据驱动的决策。Roadway的分析是仓库原生的，可以快速连接数据仓库中的基本表格，创建关键指标和增长杠杆的语义层。

增长营销数据分析自动化

Tykr:股票筛选和教育平台一体化，助您自信管理投资。

Tykr是一个结合了股票筛选器和教育平台的应用程序，旨在帮助用户自信地管理自己的投资。自2020年以来，Tykr通过其产品、服务和教育帮助成千上万的投资者做出更好的投资决策。

股票筛选投资教育自动化评估

SDXL Flash:高效能的文本到图像生成模型

SDXL Flash是由SD社区与Project Fluently合作推出的文本到图像生成模型。它在保持生成图像质量的同时，提供了比LCM、Turbo、Lightning和Hyper更快的处理速度。该模型基于Stable Diffusion XL技术，通过优化步骤和CFG（Guidance）参数，实现了图像生成的高效率和高质量。

文本到图像图像生成 AI艺术

Jector:AI 创建工具，打造令人惊叹的产品照片。

Jector是一个AI创作工具，专注于为产品摄影提供高质量的背景生成服务。它通过简化AI设置，提供独立的生成环境插槽，以及基于节点的图像生成历史记录，使得用户能够轻松创建和合成产品图像。Jector的主要优点包括无需复杂设置即可开始使用，提供简单但高度灵活的生成选项，自动产品合成，以及额外的清除和放大功能。此外，它还提供无限保存和下载功能，让用户可以轻松地为产品生成自己的心情历史。

AI生成产品摄影图像合成

Spon:一站式社区构建平台，管理活动、社区和成员。

Spon是一个专为线下社区构建者设计的全功能平台，由人工智能提供支持。它允许用户从单一界面管理活动、社区和成员。它提供了多种工具来促进社区成员之间的互动，如即兴活动、有意义的讨论和专门的聊天。Spon还提供了社区发现、兴趣匹配和基于位置的搜索功能，帮助用户扩大社区影响力。此外，Spon还提供了一个内置钱包和真实奖励系统，鼓励社区领导者通过他们的努力获得认可和奖励。Spon的愿景是超越事件本身，强调社区的支持、友谊、勇气、好奇心、联系和爱。

社区管理活动组织社交互动