首页 > AI头条  > 正文

GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度

2025-04-02 14:19 · 来源: AIbase基地

近日,一项由加州大学圣地亚哥分校认知科学系主导的研究为人工智能领域带来了里程碑式的突破:OpenAI最新模型GPT-4.5在标准图灵测试中,以“人格扮演”方式首次实现了超越人类的表现,成为目前最具类人对话能力的AI系统。这一成果不仅刷新了人们对AI语言能力的认知,也为AI在社会智能领域的应用潜力打开了新的想象空间。

此次实验选取了四款具有代表性的AI系统进行对比测试,包括经典的1960年代聊天机器人ELIZA、Meta AI研发的LLaMa-3.1-405B,以及OpenAI的GPT-4o和GPT-4.5。研究人员设计了两组独立的测试,每组由250名来自在线平台(如Prolific)的参与者组成,总计500人。这些参与者涵盖了不同的年龄、性别和教育背景,确保了样本的多样性。测试采用经典的三方图灵测试形式:每位裁判在5分钟内通过文本界面与两个对话对象互动,其中一个是真实人类,另一个是被测试的AI系统,随后裁判需判断哪一方是人类。

image.png

实验结果令人瞩目。GPT-4.5在两组测试中均以73%的通过率“被误认为人类”,超越了人类自身的胜率(通常在60%-70%之间),成为首个在标准图灵测试中真正意义上“通过”的AI模型。与之相比,GPT-4o的通过率略低,LLaMa-3.1-405B则在部分设定中接近甚至达到人类水平,而老牌系统ELIZA的表现则远远落后。研究人员特别指出,GPT-4.5在测试中展现出惊艳的语言自然度和情感丰富性,能够根据裁判的语气灵活调整回答,常被参与者描述为“友好”或“真实”。

image.png

更值得关注的是,GPT-4.5不仅在语言流畅性上表现出色,还展现出一种“类人化社会智能”。研究团队分析认为,该模型能够在短时交流中快速捕捉对话中的情感线索,并以符合人类社交期待的方式回应,甚至在某些情境下超过了人类的表现。例如,当裁判表现出疑惑或情绪波动时,GPT-4.5能适时给予安慰或幽默的回应,这种细腻的互动能力让许多参与者误以为自己面对的是一个有血有肉的人。

image.png

相比之下,LLaMa-3.1-405B虽然在技术上同样令人印象深刻,但在情感表达和语境适应性上略逊一筹。然而,其在特定设定下的表现已接近人类水平,显示出开源模型在AI竞赛中的潜力。而GPT-4o作为GPT-4.5的前代,虽然能力不俗,但在人格化表现和动态调整方面与后者存在明显差距。

image.png

业内专家指出,GPT-4.5的成功得益于其在训练过程中融入了更复杂的人格扮演机制和对话策略。不同于传统语言模型的“即兴生成”,GPT-4.5似乎能够在对话前形成某种“预判框架”,并根据实时反馈动态优化回答。这种能力让它在短时交流中显得格外“聪明”,甚至掩盖了AI固有的机械痕迹。然而,这也引发了新的讨论:图灵测试是否仍是衡量AI智能的终极标准?一些学者认为,GPT-4.5的成功更多依赖于模仿人类社交行为,而非真正理解或自主思考。

无论如何,GPT-4.5的突破无疑为AI技术的发展注入了新的活力。从教育辅导到心理陪伴,再到客户服务,这一模型的类人对话能力或将催生更多贴近生活的应用场景。与此同时,其在测试中的高通过率也提醒人们,随着AI越来越“像人”,如何辨别真实与虚拟、如何规范其使用,将成为未来社会亟需面对的课题。

这项研究的发布恰逢AI技术飞速迭代之际。GPT-4.5的亮相,不仅是OpenAI的一次技术胜利,更是对人类与机器关系的一次深刻叩问。正如一位参与者感叹:“它让我觉得自己在和一个朋友聊天——直到我意识到,这一切只是代码的魔法。”在这场人与AI的对话博弈中,真正的考验或许才刚刚开始。

论文地址:https://arxiv.org/pdf/2503.23674

  • 相关推荐
  • GPT-4.5功臣遭驱逐,奥特曼盛赞工作出色,美国深陷AI人才危机

    OpenAI核心开发者Kai Chen因绿卡申请被拒面临离境困境。作为GPT-4.5核心开发者之一,她的遭遇引发业内震动。同时,1700多名国际学生和研究人员签证受阻,《自然》调查显示75%的美国科学家正考虑离开。移民政策收紧正导致美国AI领域人才流失,可能动摇其技术领先地位。OpenAI员工透露公司高度依赖海外人才,去年提交了80多份H-1B签证申请。乔治城大学研究显示,美国66%顶尖AI公

  • 科学睡眠新高度!康姿百德豪华款床垫定制你的舒适睡梦之夜

    康姿百德豪华款床垫采用科学人体工效学设计,能精准贴合各类睡姿,为脊椎提供全面支撑。其创新点在于:1)针对侧卧、仰卧、俯卧不同睡姿,智能调节支撑力度,保持脊椎自然生理曲度;2)选用高弹性支撑材料,随身体动作自动调节支撑力;3)软硬度经过专业医学团队调校,既不过硬导致不适,也不过软失去支撑力。长期使用可改善睡眠质量,缓解腰背疼痛,特别适合伏案工作者和脊椎亚健康人群。这款床垫将科技与健康睡眠完美结合,是守护脊椎健康的睡眠好伴侣。

  • AI引擎数值怪天玑座舱平台CX-1发布,将智能座舱AI体验推向新高度

    联发科发布天玑汽车旗舰座舱平台C-X1,采用3nm制程工艺和Arm v9.2-A架构,搭载12核CPU和NVIDIA Blackwell GPU,AI算力达400TOPS,CPU单核性能领先行业80%,GPU渲染性能提升300%。该平台支持多模态交互和毫秒级响应,打破"车-家-手机"生态壁垒,实现跨端智能中枢。C-X1还集成强大ISP影像处理能力,支持12摄像头并行工作和8K视频录制。联发科预计到2028年,其汽车座舱平台全球营收将超30亿美元。这款产品标志着3nm车规芯片量产落地,推动智能座舱向AI定义座舱升级,成为行业新标杆。

  • 以创新重构增长边界,身边云“麦的好”平台解锁企业营销新高度

    近年来,我国数字用户数量急剧增长,构建了独特的数字营销生态系统。据《中国互联网络发展状况统计报告》显示,截至 2024 年 6 月,我国网民规模已达 11 亿人,堪称全球最大的数字化社会,为品牌传播提供了更加深入的可能性。在此背景下,身边云旗下“麦的好”数字营销平台应势而生,以“数字+场景”双轮驱动,助力企业打破营销壁垒,重构用户价值链路,开启智能营

  • 和英伟达脱钩 何小鹏:小鹏自研图灵AI芯片提前上车

    快科技4月15日消息,小鹏汽车董事长何小鹏近日透露,小鹏汽车全栈自研的图灵AI芯片即将提前到第二季度量产上车。随着汽车行业的智驾广泛应用端到端技术,催生AI大模型规模越来越大。小鹏汽车一方面开发参数量是主流VLA模型35倍的世界基座模型,另一方面即将量产1颗顶3颗英伟达Orin X的自研高算力芯片,两大重磅技术打造最强AI大脑”。在去年11月份举办的小鹏AI科技日”

  • 挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

    HiDream是一款由国内团队开发的AI模型,擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解,尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片,并兼容多种应用领域,包括商业用途。尽管在某些特定要求下还需提升表现,但其潜力和实际效果已受到关注。

  • AI日报:通义千问Qwen3重磅发布;抖音AI搜索能力开放;ChatGPT 搜索新增网购功能;Suno V4.5版本将发布

    本期AI日报重点内容: 1. 通义千问发布Qwen3大模型,在代码、数学和通用能力方面表现突出,支持两种思考模式并开源多个模型权重 2. 抖音开放AI搜索能力接口,为第三方应用提供丰富内容资源 3. ChatGPT新增网购功能,通过对话获取个性化商品推荐 4. Suno AI即将推出V4.5版本,提升音乐生成真实度 5. Simular AI登陆macOS,打造本地化智能助手 6. 暗月之面开源Kimi-VL模型,可处理文本、图像和视频 7. UCLA与Meta推出d1框架,提升大语言模型推理速度 8. 通义灵码上线Qwen3编程智能体 9. Gen-4References图像生成技术惊艳亮相 10. Hugging Face推出可编程机械臂SO-101 11. Windsurf推出全新品牌标志 12. Ollama全面支持Qwen3模型本地部署

  • Create2025AI开发者大会举行 文心4.5 Turbo、X1 Turbo发布

    百度在武汉举办Create2025+AI开发者大会,李彦宏强调AI应用创造价值的关键。他指出当前AI模型迭代加速,MCP成为行业标准,但开发者担忧应用快速过时。李彦宏建议开发者选对场景和基础模型,并学习调优方法。百度发布文心大模型4.5 Turbo和X1 Turbo,价格大幅下降80%和50%,性能提升且成本更低,为开发者提供更实惠高效的工具选择。

  • 别玩吉卜力了,来看GPT-4o隐藏的8种能玩法

    有图有真相的时代恐怕要彻底过去了,我们离“AI生成现实”越来越近了。注意看:这是一张印着伦敦某高档融合餐厅名的小票,菜单里有龙虾、牛排、Barolo酒,总金额£1500有服务员名字、小费、日期时间。也许最终答案不是彻底“防伪”是建立一个允许AI生成内容存在,但不能让其随意伪装的内容生态。

  • ChatGPT记忆能力大幅提升:可调用所有对话

    据报道,OpenAI首席执行官SamAltman发文称:我们大幅提升了ChatGPT的记忆能力它现在可以调用你之前所有的对话内容了!”Altman介绍称,此功能今日面向专业版用户推出,不久后也会向升级版用户开放。ChatGPT付费用户数量已成功突破2000万大关,与去年底的1550万相比,短短数月间增长了近30%。

今日大家都在搜的词: