首页 > 业界 > 关键词  > GPT-4o最新资讯  > 正文

干翻所有语音助手!OpenAI全能模型GPT-4o发布 丝滑交互如真人

2024-05-14 08:44 · 稿源:站长之家

站长之家(ChinaZ.com)5月14日 消息:OpenAI 最新发布了其旗舰大模型 GPT-4o,该模型不仅免费可用,还具备听、看、说的综合能力,提供丝滑流畅且无延迟的交互体验,仿佛与人进行视频通话一般。

image.png

GPT-4o 的特点

  • 全能输入输出:GPT-4o 能够接受文本、音频和图像的任意组合作为输入,并生成相应的文本、音频和图像输出。

  • 快速响应:该模型响应音频输入的时间仅为232毫秒至320毫秒,与人类对话反应速度一致。

  • 免费开放:GPT-4o 将对所有用户免费开放,包括 ChatGPT Plus 会员版所有的功能,如视觉、联网、记忆、执行代码等。

在直播中,CTO Murati 展示了 GPT-4o 的实时互动能力,包括随时打断对话并用丰富语气进行回复。

研究员 William Fedus 透露,GPT-4o 是之前在大模型竞技场中进行 A/B 测试的模型之一,性能高于 GPT-4-Turbo。

API 提供

GPT-4o 也将提供 API,价格为五折,速度提升一倍,单位时间内的调用次数是原来的五倍。

网友们已经在设想 GPT-4o 的应用场景,比如帮助盲人或弱视人士更好地理解世界。

演示亮点

OpenAI 总裁 Brockman 在直播中演示了 GPT-4o 的实时翻译能力,以及两个 ChatGPT 之间的对话和歌唱。

技术细节

GPT-4o 是一个端到端训练的新模型,所有输入和输出都由同一个神经网络处理,这比之前的语音模式有显著改进。

未来展望

尽管 OpenAI 没有发布详细的技术报告,但 GPT-4o 的成功演示已经引起了广泛关注和讨论。

OpenAI 的 GPT-4o 模型的发布,不仅展示了公司在 AI 领域的最新进展,也为公众提供了一个功能强大且易于使用的 AI 工具。随着技术的不断进步,我们可以期待 GPT-4o 在未来将带来更加丰富和创新的应用场景。

举报

  • 相关推荐
  • OpenAI奥特曼:GPT5预计今年夏季发布

    OpenAI创始人奥特曼在最新播客中透露,GPT-5预计今夏发布,具体日期未定。 GPT-5将是生成式AI能力的重大升级,《商业内幕》称其远超GPT-4,早期测试者认可进步显著。 GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。上月初,奥特曼发文向GPT-4告别。 目前GPT-4o已经完全替代了GPT-4,前者于2024年5月14日发布,其中o”代表omni”,意为 全能”。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • OpenAI披露GPT系列新进展,微美全息(WIMI.US)正加速AI技术融合与产业变革

    OpenAI创始人Sam Altman宣布将推出开源大模型,性能远超业界预期,其强大的本地运行能力将极大推动AI技术普及。同时透露GPT-5将于今夏面世,支持语音、图像、代码等多模态输入。AI模型成本持续下降,微美全息等企业加速布局"AI+大模型"创新应用。中金指出,未来AI发展将呈现两大趋势:垂直领域定制化Agent需求增长,以及高质量场景数据价值凸显。2025年被视为AI应用大规模落地元年,但技术发展需兼顾创新与安全。

  • Soul App全双工语音大模型升级,让AI在交互中拥有“主动性”

    社交平台Soul App近日升级端到端全双工语音通话大模型,重新定义"全双工"交互模式。新模型突破传统语音交互依赖VAD机制与延迟控制逻辑的局限,赋予AI自主决策对话节奏的能力,实现主动打破沉默、适时打断用户、边听边说、时间语义感知等类人交互体验。同时具备多维度感知、口语化表达、音色复刻等功能,让AI更具"真人感"。该技术将应用于虚拟人实时通话、AI匹配1V1互动等场景,并探索多人互动场景应用。Soul CTO陶明表示,社交是情绪价值和信息价值的双向关系,平台将持续通过技术创新为用户提供更智能、沉浸的社交体验。数据显示,71.1%年轻人愿意和AI做朋友建立情感连接,AI社交正成为重要趋势。

  • 自研大模型遥遥无期!苹果Siri考虑用外援:转向OpenAI合作

    据媒体报道,知名爆料人马克古尔曼透露,苹果正重新评估其人工智能发展策略,考虑放弃自研大语言模型(LLM)计划,转而与OpenAI展开合作谈判。 若合作达成,苹果原定于2026年推出的基于自研Apple Foundation Models”的Siri升级计划可能被搁置,这一变动或引发行业广泛关注。 目前,由苹果AI负责人约翰詹南德雷亚(John Giannandrea)主导的LLM Siri”项目仍在进行中,但进展不及预�

  • Meta V-JEPA 2模型来袭,OpenAI/微美全息AI创新跃升赋能千行百业变革

    Meta推出开源模型V-JEPA2,帮助AI理解3D环境和物理规律;OpenAI发布最强推理模型o3-pro,在数学测试中超越Google Gemini2.5Pro;苹果宣布将推出全新智能模型,扩展语言支持并开放开发者访问;微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域,推动AI与教育、金融等重点行业深度融合,赋能产业升级。

  • 前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户

    他对OpenAI最新GPT-4o模型进行的一系列实验。这些实验旨在测试AI是否会偏向“自我保护”,甚至可能以牺牲用户利益为代价……

  • OpenAI:我们的年营收已经达到了 100 亿美元!

    OpenAI 表示,公司年度经常性营收近期已达到 100 亿美元,相比去年约 55 亿美元有显著增长。