首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

GPT-4被证实有人类心智!网友:连AI都可以看出他在嘲讽你了

2024-05-27 10:47 · 稿源:站长之家

站长之家(ChinaZ.com)5月27日 消息:Nature杂志上发表的最新研究显示,GPT-4在心智理论(Theory of Mind, ToM)方面的表现与人类相当,甚至在某些方面超过了人类。这项研究由James W. A. Strachan等人进行,他们通过一系列测试来评估GPT-4、GPT-3.5、Llama2以及人类参与者的表现,并进行了比较。

image.png

以下是研究的主要发现:

  1. 心智理论的表现:心智理论是理解他人心理状态的能力,对于社会互动至关重要。GPT-4在心智理论方面的表现与人类无异,甚至在检测讽刺和暗示方面优于人类。

  2. 测试项目:研究包括了5个测试项目,分别是错误信念、反讽、失言、暗示和奇怪故事。GPT-4在反讽、暗示和奇怪故事这3项测试中的表现明显优于人类,在错误信念测试中与人类持平,仅在失言测试中表现不如人类。

  3. 保守性:GPT-4在失言测试中的低分并非因为它缺乏理解能力,而是因为它采取了保守策略,不轻易给出确定性意见。

  4. 失言可能性测试:在失言可能性测试中,GPT-4展现了完美的性能,表明它能够成功推断说话者的心理状态,并确定无意冒犯的可能性大于故意侮辱。

  5. 能力和表现的分离:研究表明,GPT模型可能具备计算类似心智推理的技术复杂性,但在不确定情况下的表现与人类不同。人类倾向于消除不确定性,而GPT则不会自发地计算推论以减少不确定性。

  6. 谨慎行为:GPT-4在失言测试中的保守性可能源于其底层架构中的缓解措施,这些措施旨在提高事实性并避免用户过度依赖模型。

这项研究的结果表明,GPT-4在理解人类心理状态方面的能力可能被低估了。研究者呼吁建立“机器心理学”,使用实验心理学的工具和范式来系统地研究大型语言模型的能力和局限性。

论文地址:https://www.nature.com/articles/s41562-024-01882-z

举报

  • 相关推荐
  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分

    9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • HTTP 402与微支付:一段沉睡三十年的代码,在AI时代觉醒

    30年前HTTP 402协议因交易成本高、体验割裂和技术缺失而失败,如今AI时代带来消费原子化、决策流线化和主体去人化三大变革,使微支付成为可能。AI代理通过钱包身份、风控机制和无缝支付协议实现高频小额交易,重构互联网经济逻辑,让HTTP 402从理想变为AI经济的支付基石。

  • 真我GT8 Pro正面首曝:2K 144Hz视觉四等边直屏

    真我GT8+ Pro曝光,采用视觉四等边2K直屏,为业内首款2K+144Hz屏幕,搭载BOE Q10+发光材料,峰值亮度达7000nit。配备第五代骁龙8至尊版芯片,采用台积电3nm工艺,搭配电竞独显芯片R1优化性能。影像方面搭载2亿像素潜望长焦,支持3倍光学变焦和120倍数码变焦,摄像头模组采用独特机器人形状设计。此外配备对称式双扬声器、120W快充、7K大电池及X轴线性马达等。真我高管称其为同价位最佳屏幕之一,预计节后公布更多信息。

  • 一图读懂真我GT8 Pro 2K 144Hz苍穹屏:为玩家打造神级好屏

    真我GT8+ Pro屏幕参数全面曝光,搭载2K 144Hz“苍穹屏”,行业首发4000nit阳光显示,峰值亮度达7000nit。采用京东方Q10+发光材料,支持360Hz四指触控采样率与3200Hz瞬时触控,响应更快。首发1nit极暗护眼技术,支持全应用适配,并引入真彩护眼低蓝光方案,色彩准确度提升64.8%。全亮度DC调光默认开启,SVM频闪指标低至0.07。真我中国区总裁徐起表示,随着电池容量升级至7K mAh级别,2K屏功耗问题得到平衡,这将是同价位最佳屏幕之一。新机预计十月发布。

  • 真我、京东方王炸组合!GT8 Pro全球首发2K 144Hz苍穹屏:神级好直屏

    真我GT8 Pro将于10月发布,搭载2K+144Hz“苍穹屏”,采用旗舰定制Q10+发光材料,官方称其为“神级好屏”。相比上代,屏幕在分辨率、刷新率、亮度、形态、护眼和色准方面全面提升:分辨率从1.5K升至2K,刷新率从120Hz提至144Hz,峰值亮度达7000nit,形态升级为直屏与大R角,护眼支持全局DC调光与1nit方案,色准升级为硬件级芯片校色。此外,手机配备骁龙8至尊版处理器、电竞独显芯片Q1、2亿像素潜望长焦镜头、对称式双扬声器等,电池容量升级至7000mAh级别,续航体验大幅提升。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 华为AI城市峰会:共建城市数智底座,AI CITY先锋城市案例发布

    9月18日,华为全联接大会2025期间举办AI城市峰会,聚焦智慧城市治理、政务服务与产业升级。华为发布“AI CITY 1234MNX”参考架构,通过智能云底座、安全保障体系及统一平台,推动城市全域智能化转型。会议分享了深圳、广州等地的实践案例,展示AI在政务、城市管理及工业领域的应用成效,并呼吁各方共建AI城市生态,加速数字化进程。

今日大家都在搜的词: