OpenAI 宣布自 GPT-4 发布以来的更新：ChatGPT 现在可以「看、听、说」

2023-09-26 09:03 · 稿源：站长之家

站长之家(ChinaZ.com) 9月26日消息:OpenAI 宣布，其聊天机器人 ChatGPT 现在可以「看、听、说」，或者至少能够理解口语，用合成的声音回应并处理图像。

OpenAI ChatGPT，人工智能，AI

这次更新是自引入 GPT-4 以来 OpenAI 最大的一次改进。用户可以选择使用五种不同的合成声音与 ChatGPT 进行语音对话，并向其分享图片并突出显示重点或分析区域（例如：「这些是什么类型的云？」）。

这些变化将在未来两周内推出给付费用户。虽然语音功能将仅限于 iOS 和 Android 应用程序，但图像处理功能将适用于所有平台。

OpenAI 在其网站上提供了一个宣传视频，展示了与 ChatGPT 的交流演示：用户询问如何升起自行车座椅，并提供了照片、使用手册和用户工具箱的图片。ChatGPT 会做出反应并建议用户如何完成这一过程。

那么它是如何工作的呢？OpenAI 并未公布 GPT-4 或其多模态功能如何在后台运行的技术细节，但根据其他公司（包括 OpenAI 合作伙伴微软）的已知人工智能研究，多模态人工智能模型通常会将文本和图像转换到一个共享的编码空间，从而使它们能够通过相同的神经网络处理各种类型的数据。OpenAI 可以使用 CLIP 在视觉数据和文本数据之间架起一座桥梁，将图像和文本表征整合到同一个潜在空间（一种矢量化的数据关系网）中。这种技术可以让 ChatGPT 跨文本和图像进行上下文推理，不过这只是一种推测。

此次大规模推广新功能正值聊天机器人领导者之间人工智能竞赛日益升级之际，如 OpenAI、微软、谷歌和 Anthropic 等公司都在努力鼓励消费者采纳生成式人工智能技术，并竞相发布新的聊天机器人应用程序和特性。谷歌已经宣布了 Bard 聊天机器人的一系列更新，微软则为必应添加了视觉搜索功能。

据 PitchBook 报道，今年早些时候，微软扩大了对 OpenAI 的投资——追加 100 亿美元——使其成为本年度最大的人工智能投资。据报道，今年 4 月，这家初创公司完成了 3 亿美元的股票出售，估值在 270 亿至 290 亿美元之间，投资方包括红杉资本（Sequoia Capital）和 Andreessen Horowitz 等公司。

专家们对人工智能生成的合成声音提出了关注，这种技术可以让用户获得更自然的体验，但也可能会产生更令人信服的深度伪造。网络威胁行为者和研究人员已经开始探索如何利用深度伪造来渗透网络安全系统。

OpenAI 在周一发布公告时承认了这些问题，并表示合成声音是「与我们直接合作过的配音演员创作」的，而不是从陌生人那里收集来的。

该公司还未提供有关 OpenAI 将如何使用消费者语音输入或如何保护数据（如果使用的话）的信息。该公司服务条款规定，「在适用法律允许范围内」，消费者拥有其输入内容所有权。

OpenAI 引述了其有关语音交互指南中所述内容，其中指出 OpenAI 不会保留音频剪辑，并且这些剪辑本身并不用于改进模型。但该公司还指出，在此过程中转录被视为输入，并可能用于改进大型语言模型。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
ChatGPT重磅更新：新增语音和图像功能可以看、听、说

当地时间周一，美国人工智能研究公司OpenAI宣布，其AI聊天机器人工具ChatGPT现在可以“看、听、说”，这暗指这款广受欢迎的聊天机器人可以同时接收图像和语音输入，并通过语音对话进行回复。ChatGPT是OpenAI于2022年11月30日推出的一种新型AI聊天机器人工具，可根据用户的要求快速生成文章、故事、歌词、散文、笑话，甚至代码，并回答各类疑问。它是一个多模态大型语言模型，支持图像和文本输入，以文本形式输出；扩写能力增强，能处理超过25000个单词的文本；更具创造力，并且能够处理更细微的指令。
荐ChatGPT/GPT-4/Llama电车难题大PK！小模型道德感反而更高？

微软对大语言模型的道德推理能力进行了测试，但在电车问题中大尺寸的模型表现反比小模型差。但最强大语言模型GPT-4的道德得分依旧是最高的。这与研究最初的假设:大型模型总是比小型模型具有更强的能力相反，说明利用这些较小的模型开发道德系统具有很大的潜力。

ChatGPT GPT-4
突发！ChatGPT可实时联网，OpenAI终于打开捆龙锁啦！

9月28日凌晨，OpenAI在社交平台宣布，ChatGPT正式提供原生联网功能，可实时查询网络最新消息，并附带原始链接。OpenAI表示，ChatGPTPlus和企业版用户可直接使用该功能，未来会扩展至所有用户全体。ChatGPT作为生成式AI领域的领头羊之一，却一直没有开放联网功能，长时间下去会造成用户流失的情况。

ChatGPT
荐重磅！OpenAI将发布DALL·E 3，多模态ChatGPT来了！

9月21日凌晨，OpenAI在官网宣布，在今年10月份将通过API向ChatGPTPlus和企业版用户提供全新文本生成图片产品——DALL·E3。ChatGPT在DALL·E3加持下将开启久违的多模态输出模式，用户通过文本就能直接在ChatGPT中生成各种类型图片。从展示可以看出，DALL·E3可以生成写实、二次元、平面、创意、朋克、3D等多种类型的图片。

DALL·E
利用合成数据微调ChatGPT超越GPT-4摘要性能降低63%成本和提升11倍速度

Elicit公司机器学习工程师CharlieGeorge在LangChain博客上发表文章介绍了他们使用合成数据微调ChatGPT在新闻摘要任务上超越GPT-4的研究成果。文章提到，尽管GPT-4被公认为世界上最强大的语言模型，但其调用限制、高成本和高延迟也限制了其实际应用。这为新一代AI应用大规模部署提供了路径。

ChatGPT GPT-4 AI头条
荐淘宝，多了一个“ChatGPT”入口

正在悄然切换，进入AI时代。现在打开淘宝，搜索“淘宝问问”，你可以直接跳转到一个全新的页面。它还不是最终形态，如何让电商和AI更好地结合，找到那条打通最佳的用户体验和购物链路的路径，才是真正的挑战。

ChatGPT 淘宝
Bing Chat创意和精确模式全面采用GPT-4

微软搜索主管MikhailParakhin在Twitter上正式宣布，BingChat在创意和精确模式下100%采用GPT-4。这一消息为微软在人工智能领域的发展迈出了重要的一步。市场竞争激烈，微软需要继续努力以实现其市场份额的增长目标。

GPT-4 BingChat AI头条
OpenAI创始人最新演讲：不要做套壳ChatGPT，建议多研究AI医疗和AI教育

OpenAI是当下AI产业的风向标，据TheInformation报道，OpenAI的年营收已达到13亿美元，其爆发式增长提振了AI产业的信心。9月24日的美国旧金山举行的YC校友会上，OpenAI创始人兼CEOSamAltman的演讲无疑是当天最火爆的，台下挤满了前来学习和交流的创业者。“人们可以原谅人类犯错，但不能原谅计算机”，SamAltman强调人们对计算机采用的标准是不同的，创业者应当意识到这一点，并确保A

OpenAI ChatGPT
OpenAI表示将继续免费提供ChatGPT，不追求快速盈利

OpenAI在其网站上发布了一份“严肃的解释”，以反驳有关该公司的错误信息并澄清其使命。OpenAI表示，其使命是继续开发至少与人一样聪明、造福全人类的人工智能，同时限制员工和投资者的经济收益。微软回应称，他们正在不断改进技术，Bing聊天机器人使用了OpenAI和微软语言模型的混合。

OpenAI ChatGPT AI头条
ChatGPT 的所有者 OpenAI 正在探索制造自己的人工智能芯片

ChatGPT背后的OpenAI公司，正在考虑制造自己的人工智能芯片，并已评估潜在的收购目标。根据最近的内部讨论，公司尚未决定是否继续前进。英伟达是少数几家生产有用的人工智能芯片并主导市场的芯片制造商之一。

ChatGPT OpenAI 人工智能

今日大家都在搜的词：

热文

3 天
7天

OpenAI 宣布自 GPT-4 发布以来的更新：ChatGPT 现在可以「看、听、说」

今日大家都在搜的词：

热文

站长商机