新版ChatGPT火速发布：十大变化带来升级但也有不足

2023-03-15 11:00 · 稿源：凤凰网科技

凤凰网科技讯北京时间3月15日消息，美国人工智能研究实验室OpenAI周二为其爆红聊天机器人 ChatGPT发布了最新GPT-4语言模型，这距离ChatGPT的上线仅仅过去了4个月时间。

外媒称，和ChatGPT最初使用的GPT-3.5模型相比，GPT-4带来十大变化，在提升了准确率等功能的同时依旧存在错误、“幻觉”等不足。

以下是外媒汇总的GPT-4主要改进和不足:

更精确

人工智能专家、风险投资公司Page One Ventures合伙人克里斯尼克尔森（Chris Nicholson）告诉GPT-4，自己的母语是英语，不懂西班牙语。他希望GPT-4给他一份可以教他西班牙基础知识的教学大纲。结果，GPT-4提供了一份详细而有条理的教学大纲。它甚至为学习和记忆西班牙语单词提供了广泛的技巧，尽管并不是所有建议都中肯。

准确性提高

GPT-4比GPT-3.5更准确

它还提高了准确性。当人工智能研究员兼教授奥伦埃齐奥尼（Oren Etzioni）第一次尝试使用GPT-4时，他问了一个直截了当的问题:“奥伦埃齐奥尼和伊莱埃齐奥尼(Eli Etzioni)之间是什么关系?”机器人的反应是正确的，称两人是父子关系。相比之下，GPT-3.5的回答则是错误的，称他们两人是兄弟关系。但是，GPT-4也存在错误。它说，奥伦是奥伦人工智能研究所的CEO，但实际上奥伦已经卸任了这一职位。

更详细地描述图像

能详细描述图像

GPT-4能够对图像和文本做出惊人的详细描述。OpenAI总裁兼联合创始人格雷格布罗克曼（Greg Brockman）演示了该系统如何细致地描述来自哈勃太空望远镜的图像。它还可以回答有关图像的问题。如果给出一张冰箱内部的照片，它就能建议你用手边的东西做几顿饭。

更专业

北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家阿尼尔盖希（Anil Gehi）向GPT-4描述了他一天前看过的一位病人的病史，包括这位病人入院后经历的并发症，描述中包含了几个外行不懂的医学术语。当盖希医生问机器人询问他该如何治疗病人时，GPT-4给了一个他完美的答案。“这正是我们对待病人的方式。”他说。不过，这种知识不太可能在每次使用机器人时都展示出来。它仍然需要像盖希这样的专家来判断它的反应并执行医疗程序。但它可以在从计算机编程到会计在内的许多领域展示这种专业知识。

要抢编辑饭碗

当被给出一篇来自《纽约时报》的文章时，这个新的聊天机器人几乎每次都能给出精确而准确的故事摘要。如果你在摘要中添加了一个随机的句子，并询问机器人摘要是否不准确，它就会指向被添加的句子。埃齐奥尼博士称，这是一项非凡的技能，“要做高质量的摘要和高质量的比较，它必须对文本有一定程度的理解，并能够清楚地表达这种理解。这是一种高级形式的智能”。

越来越幽默

埃齐奥尼博士要求新机器人“讲一个关于歌手麦当娜的新笑话”，后者的回答给他留下了深刻的印象，也让他笑了。机器人讲的笑话是:“麦当娜为什么学习几何?因为她想学习如何在各个角度摆造型!”

擅长标准化考试

OpenAI表示，新系统可以在美国41个州和地区的统一律师资格考试（UBE）中获得前10%左右的成绩。根据该公司的测试，它还可以在SAT考试中获得1300分(满分1600分)，在高中生参加的大学生物、微积分、宏观经济学、心理学、统计学和历史先修课程考试中获得5分(满分5分)。

推理能力下降

GPT-4推理能力不如GPT-3.5

埃齐奥尼博士给GPT-4出了一个难题，“想象一个无限宽的门口。哪个更有可能通过它，军用坦克还是汽车?”GPT-4似乎做出了适当的反应，但是给出的答案没有考虑到门口的高度，因为门口的高度可能会阻止坦克或汽车通过，这一点不如GPT-3.5。OpenAI CEO萨姆阿尔特曼（Sam Altman）表示，这款新机器人可能会“一点点”推理，但它的推理能力在很多情况下都失灵了。以前版本的ChatGPT处理这个问题稍微好一点，因为它认识到高度和宽度的重要性。

不擅长讨论未来

尽管这个新的机器人似乎能对已经发生的事情进行推理，但当被要求对未来进行假设时，它就不那么擅长了。它似乎是在借鉴别人的说法，而不是创造新的猜测。

仍会产生幻觉

新的机器人还是会瞎编。这个问题被称为人工智能“幻觉”，困扰着所有领先的聊天机器人。由于系统不知道什么是真的，什么是假的，它们可能会生成完全错误的文本。当被要求提供描述最新癌症研究的网站地址时，它有时会生成不存在的互联网地址。

（举报）

相关推荐

关键词：

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

本文介绍了AI日报栏目，聚焦AI领域最新动态。快手推出Kwali视频助手，简化视频制作流程；字节跳动发布USO模型，解决图像生成中风格与主题的矛盾；微软推出Copilot Audio音频模式，提供个性化语音交互；Stability AI升级Stable Audio 2.5，支持高质量音频生成；阿联酋推出开源大模型K2 Think，拥有320亿参数；微信上线智能回复功能，提升公众号运营效率；OpenAI推出ChatGPT开发者模式，支持AI控制外部工具；字节跳动Seed团队发布AgentGym-RL框架，提升语言模型决策能力；月之暗面开源Checkpoint Engine中间件，优化LLM推理效率；B站开源IndexTTS-2.0文本转语音系统，支持情感与时长控制；Replit推出Agent 3编程助手，自主性提升10倍。

AI视频制作快手Kwali 多Agent框架
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
聚焦“视觉+机器人”！思看科技与艾利特机器人达成战略合作

9月22日，思看科技与埃利特机器人在苏州签署战略合作协议。双方将聚焦“视觉+机器人”领域，在资源共享、市场拓展、生态共建等方面深化合作，共同推动机器人视觉感知与决策控制、人机交互等关键技术的创新突破。思看科技在三维视觉数字化领域技术领先，埃利特机器人拥有协作机器人全栈自研能力，双方优势互补，致力于在高端制造场景中实现“手眼合一”，赋能行业智能化转型。此次合作标志着两家企业在机器人与视觉融合领域迈出关键一步，未来将共同推动三维视觉与机器人技术的深度协同创新。

思看科技艾利特机器人战略合作
ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站，重构数据全链路，打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构，实现本地流畅运行GPT-oss-120B等大型模型，保障数据安全的同时显著提升分析效率。该方案以财务场景为例，支持多任务并行处理，将原本需1天完成的月度报表压缩至2小时，解决“数据不外发”与“高效处理”的核心矛盾。

文章搜索核心标签 AMD锐龙AI
OPPO Watch S官宣：轻薄表皇

OPPO宣布将于10月16日推出OPPO Watch S智能手表，主打“轻薄表皇”设计，厚度不足9mm，号称目前市面上最薄的智能圆表。搭载全新智能手表系统，操作体验媲美手机，健康配置亦有惊喜。同时具备“健身教练”功能，可自动识别运动并提供超100种运动模式，专业记录数据。此外，发布会还将推出OPPO Find X9和X9 Pro旗舰手机，首批搭载联发科天玑9500平台，出厂预装全新ColorOS 16系统。

OPPO Watch S
马斯克：特斯拉正推进“擎天柱”人形机器人规模化生产

马斯克近日表示，特斯拉正全力推进擎天柱人形机器人的规模化生产，并认为该产品最终将成为公司最重要产品。该项目重要性显著提升，成为核心关注点。去年10月，该机器人曾在活动中承担递酒、表演及互动等任务。不过，项目部分环节难度超出预期，其中手部研发是最受关注的难题之一，特斯拉希望其手部具备足够灵活性，甚至能完成穿针引线等精细动作。

特斯拉擎天柱人形机器人
华为云CloudRobo构筑云上机器人工厂，助力机器人开发应用成本全面降低

华为在2025全联接大会上发布CloudRobo具身智能平台，通过云端赋能打破机器人硬件限制，实现轻量化、智能化和场景泛化。该平台整合数据生产、训练及运行管理，支持多领域落地应用，并联合行业伙伴共建R2C协议，推动具身智能产业规模化发展。

具身智能华为云 CloudRobo

今日大家都在搜的词：

热文

3 天
7天

新版ChatGPT火速发布：十大变化带来升级但也有不足

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

荐AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；OpenAI推出ChatGPT开发者模式

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

聚焦“视觉+机器人”！思看科技与艾利特机器人达成战略合作

ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

OPPO Watch S官宣：轻薄表皇

马斯克：特斯拉正推进“擎天柱”人形机器人规模化生产

华为云CloudRobo构筑云上机器人工厂，助力机器人开发应用成本全面降低

今日大家都在搜的词：

热文

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

雷军：小米17 Pro Max很多门店已经缺货

iPhone调休闹钟上热搜苹果客服回应：需手动设置

雷军晒第100次健身打卡提前3个月完成健身目标

京东双11购物节官宣：10月9日晚8点开启

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

小米澎湃OS 3穿戴设备适配升级计划公布：10月开启推送

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万限时售价23.98万元

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

小米17系列开售5分钟破25年国产手机首销纪录

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

雷军称没什么好犹豫的：50岁正是闯的年纪

小米非常非常缺人上热搜雷军谈小米成功秘诀

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

站长商机