首页 > 业界 > 关键词  > 机器人最新资讯  > 正文

新版ChatGPT火速发布:十大变化带来升级但也有不足

2023-03-15 11:00 · 稿源: 凤凰网科技

凤凰网科技讯 北京时间3月15日消息,美国人工智能研究实验室OpenAI周二为其爆红聊天机器人ChatGPT发布了最新GPT-4语言模型,这距离ChatGPT的上线仅仅过去了4个月时间。

外媒称,和ChatGPT最初使用的GPT-3.5模型相比,GPT-4带来十大变化,在提升了准确率等功能的同时依旧存在错误、“幻觉”等不足。

以下是外媒汇总的GPT-4主要改进和不足:

更精确

人工智能专家、风险投资公司Page One Ventures合伙人克里斯尼克尔森(Chris Nicholson)告诉GPT-4,自己的母语是英语,不懂西班牙语。他希望GPT-4给他一份可以教他西班牙基础知识的教学大纲。结果,GPT-4提供了一份详细而有条理的教学大纲。它甚至为学习和记忆西班牙语单词提供了广泛的技巧,尽管并不是所有建议都中肯。

准确性提高

GPT-4比GPT-3.5更准确

GPT-4比GPT-3.5更准确

它还提高了准确性。当人工智能研究员兼教授奥伦埃齐奥尼(Oren Etzioni)第一次尝试使用GPT-4时,他问了一个直截了当的问题:“奥伦埃齐奥尼和伊莱埃齐奥尼(Eli Etzioni)之间是什么关系?”机器人的反应是正确的,称两人是父子关系。相比之下,GPT-3.5的回答则是错误的,称他们两人是兄弟关系。但是,GPT-4也存在错误。它说,奥伦是奥伦人工智能研究所的CEO,但实际上奥伦已经卸任了这一职位。

更详细地描述图像

能详细描述图像

能详细描述图像

GPT-4能够对图像和文本做出惊人的详细描述。OpenAI总裁兼联合创始人格雷格布罗克曼(Greg Brockman)演示了该系统如何细致地描述来自哈勃太空望远镜的图像。它还可以回答有关图像的问题。如果给出一张冰箱内部的照片,它就能建议你用手边的东西做几顿饭。

更专业

北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家阿尼尔盖希(Anil Gehi)向GPT-4描述了他一天前看过的一位病人的病史,包括这位病人入院后经历的并发症,描述中包含了几个外行不懂的医学术语。当盖希医生问机器人询问他该如何治疗病人时,GPT-4给了一个他完美的答案。“这正是我们对待病人的方式。”他说。不过,这种知识不太可能在每次使用机器人时都展示出来。它仍然需要像盖希这样的专家来判断它的反应并执行医疗程序。但它可以在从计算机编程到会计在内的许多领域展示这种专业知识。

要抢编辑饭碗

当被给出一篇来自《纽约时报》的文章时,这个新的聊天机器人几乎每次都能给出精确而准确的故事摘要。如果你在摘要中添加了一个随机的句子,并询问机器人摘要是否不准确,它就会指向被添加的句子。埃齐奥尼博士称,这是一项非凡的技能,“要做高质量的摘要和高质量的比较,它必须对文本有一定程度的理解,并能够清楚地表达这种理解。这是一种高级形式的智能”。

越来越幽默

埃齐奥尼博士要求新机器人“讲一个关于歌手麦当娜的新笑话”,后者的回答给他留下了深刻的印象,也让他笑了。机器人讲的笑话是:“麦当娜为什么学习几何?因为她想学习如何在各个角度摆造型!”

擅长标准化考试

OpenAI表示,新系统可以在美国41个州和地区的统一律师资格考试(UBE)中获得前10%左右的成绩。 根据该公司的测试,它还可以在SAT考试中获得1300分(满分1600分),在高中生参加的大学生物、微积分、宏观经济学、心理学、统计学和历史先修课程考试中获得5分(满分5分)。

推理能力下降

GPT-4推理能力不如GPT-3.5

GPT-4推理能力不如GPT-3.5

埃齐奥尼博士给GPT-4出了一个难题,“想象一个无限宽的门口。哪个更有可能通过它,军用坦克还是汽车?”GPT-4似乎做出了适当的反应,但是给出的答案没有考虑到门口的高度,因为门口的高度可能会阻止坦克或汽车通过,这一点不如GPT-3.5。OpenAI CEO萨姆阿尔特曼(Sam Altman)表示,这款新机器人可能会“一点点”推理,但它的推理能力在很多情况下都失灵了。以前版本的ChatGPT处理这个问题稍微好一点,因为它认识到高度和宽度的重要性。

不擅长讨论未来

尽管这个新的机器人似乎能对已经发生的事情进行推理,但当被要求对未来进行假设时,它就不那么擅长了。它似乎是在借鉴别人的说法,而不是创造新的猜测。

仍会产生幻觉

新的机器人还是会瞎编。这个问题被称为人工智能“幻觉”,困扰着所有领先的聊天机器人。由于系统不知道什么是真的,什么是假的,它们可能会生成完全错误的文本。当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。

举报

  • 相关推荐
  • 曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

    苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”,用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能,包括搜索个人数据、执行App内操作(如编辑照片)等。虽然不面向消费者发布,但该工具标志着苹果对Siri的全面升级已进入新阶段,旨在帮助员工高效完成测试。

  • 女子用ChatGPT选号中百万大奖 全部捐出帮助有需要的人

    美国弗吉尼亚州女子卡丽爱德华为非经常购彩者,近日通过手机向ChatGPT询问彩票号码建议,AI提供几组数字供参考。她购买后幸运中得15万美元(约106万元人民币)大奖。领奖时她当场宣布将全部奖金捐出,帮助有需要的人,并表示自己已足够幸运,希望以此鼓励其他中奖者回馈社会。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • 聚焦“视觉+机器人”!思看科技与艾利特机器人达成战略合作

    9月22日,思看科技与埃利特机器人在苏州签署战略合作协议。双方将聚焦“视觉+机器人”领域,在资源共享、市场拓展、生态共建等方面深化合作,共同推动机器人视觉感知与决策控制、人机交互等关键技术的创新突破。思看科技在三维视觉数字化领域技术领先,埃利特机器人拥有协作机器人全栈自研能力,双方优势互补,致力于在高端制造场景中实现“手眼合一”,赋能行业智能化转型。此次合作标志着两家企业在机器人与视觉融合领域迈出关键一步,未来将共同推动三维视觉与机器人技术的深度协同创新。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • OPPO Watch S官宣:轻薄表皇

    OPPO宣布将于10月16日推出OPPO Watch S智能手表,主打“轻薄表皇”设计,厚度不足9mm,号称目前市面上最薄的智能圆表。搭载全新智能手表系统,操作体验媲美手机,健康配置亦有惊喜。同时具备“健身教练”功能,可自动识别运动并提供超100种运动模式,专业记录数据。此外,发布会还将推出OPPO Find X9和X9 Pro旗舰手机,首批搭载联发科天玑9500平台,出厂预装全新ColorOS 16系统。

  • 马斯克:特斯拉正推进“擎天柱”人形机器人规模化生产

    马斯克近日表示,特斯拉正全力推进擎天柱人形机器人的规模化生产,并认为该产品最终将成为公司最重要产品。该项目重要性显著提升,成为核心关注点。去年10月,该机器人曾在活动中承担递酒、表演及互动等任务。不过,项目部分环节难度超出预期,其中手部研发是最受关注的难题之一,特斯拉希望其手部具备足够灵活性,甚至能完成穿针引线等精细动作。

  • 华为云CloudRobo构筑云上机器人工厂,助力机器人开发应用成本全面降低

    华为在2025全联接大会上发布CloudRobo具身智能平台,通过云端赋能打破机器人硬件限制,实现轻量化、智能化和场景泛化。该平台整合数据生产、训练及运行管理,支持多领域落地应用,并联合行业伙伴共建R2C协议,推动具身智能产业规模化发展。

今日大家都在搜的词: