首页 > AI头条  > 正文

北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准

2025-05-27 15:43 · 来源: AIbase基地

在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。

这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。随着 LLM 能力的快速迭代,传统的评估方法已显不足。论文指出,当前评估面临多重挑战,包括 LLM 的心智特征超出传统评测范围、模型迭代快使静态基准失效、评估结果容易受微小变化影响等。为此,团队提出了将心理测量学引入 AI 评估的新思路。

image.png

心理测量学长期致力于量化复杂心理特质,通过科学设计的测试为教育、医疗和商业决策提供支持。研究者们发现,将其方法论应用于 LLM 的评估,将有助于深入理解和提升 AI 的心智能力。这一方法革新为 AI 评估开启了全新的视角,从而推动了 “LLM 心理测量学” 的交叉领域发展。

论文中提出了三大创新方向:一是采用 “构念导向” 的评估方法,深入挖掘影响模型表现的潜在变量;二是引入心理测量学的严谨方法,提升测试的科学性与可解释性;三是利用项目反应理论,动态校准测试项目难度,使得不同 AI 系统之间的比较更加科学和公平。

此外,研究还探讨了 LLM 表现出的类人心理构念,包括人格特质、能力构念等,强调了这些特质对模型行为的深远影响。通过结构化和非结构化的测试形式,团队为 LLM 的 “心智” 能力评估奠定了方法论基础,为未来 AI 的发展提供了有力的理论支持。

论文地址:https://arxiv.org/pdf/2505.08245

  • 相关推荐
  • 用户对离谱回答不满激增,OpenAI回应:将持续公开AI模型安全性评估

    OpenAI于5月14日上线"安全评估中心"网页,公开其AI模型在有害内容生成、越狱行为和幻觉等方面的安全测试结果。此举旨在回应外界对其模型透明度的质疑,此前GPT-4o更新因不当赞美引发争议,导致全面撤回。该平台将定期更新数据,CEO奥特曼也承认存在问题并承诺改进。通过公开安全指标,OpenAI希望提升行业透明度,重建用户信任。

  • 从“跟跑”到“领跑”:银河麒麟如何定义AI时代操作系统新标准

    银河麒麟桌面操作系统V10+SP1 2503版本正式发布,搭载自主研发的"AI子系统"。该系统采用分层架构设计,包含AI SDK、AI Runtime和推理层三大模块,提供154个标准化接口,覆盖文本生成、图像处理等6大类AI功能。通过"应用-模型-硬件"解耦架构,支持本地、云端和自定义三种部署模式,满足不同场景需求。系统优化了CPU/GPU/NPU异构计算资源调度,提升模型推理效率,同时保障用户数据隐私安全。该版本展现了国产操作系统在AI能力集成、异构计算适配等领域的突破,为行业提供AI与操作系统协同创新的参考路径。

  • 中国新能源汽车的破局之道:安全与可靠系统性升级(下篇)

    本文探讨了全球新能源汽车市场增速放缓的原因及中国车企的应对策略。欧美国家补贴退坡、充电设施不足是主要制约因素,而中国车企通过技术创新构建了完整产业链,在电池、电控等核心领域实现自主可控。文章指出,提升安全性与可靠性是中国车企破局关键,建议通过铜基材料应用、产学研合作强化技术优势,同时在东南亚等地建立生产基地规避贸易壁垒。最后强调,中国车企需通过国际认证构建品牌信任,参与标准制定重塑全球产业规则,实现从"出口大国"向"技术强国"的转型。

  • 中国新能源汽车的破局之道:安全与可靠系统性升级(上篇)

    在全球经济格局变化背景下,中国新能源汽车产业迎来重大发展机遇。2025年中国电动车销量预计首超燃油车,突破1200万辆,成为全球最大汽车出口国。技术方面,电池能量密度提升显著缓解里程焦虑,智能驾驶系统持续优化。政策支持如购置税减免有效刺激市场需求。但海外拓展面临欧盟35.3%关税等贸易壁垒,中国企业通过本地化生产、开拓新兴市场应对挑战。全球电动化趋势不可逆,中国渗透率已超50%,领先欧美。铜材料的高效循环利用特性为产业环保发展提供支撑,其导电性也保障了充电安全。欧美市场面临充电设施不足等技术滞后问题。中国新能源车产业需在复杂局势中提升安全可靠性以实现持续发展。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • YY开播:智能美颜与多场景适配,重新定义直播工具新标准

    YY开播作为专业直播工具,通过三大创新重塑直播生态:1)AI美颜技术突破,采用3D面部建模实现个性化自然美颜,支持光影重塑与多风格妆容一键切换;2)多平台适配能力,兼容抖音、微信等主流平台,支持横竖屏智能切换,提供绿幕抠图、虚拟背景等场景化功能;3)用户友好设计,简化操作流程,配备智能提词器和多语言支持,并计划引入AI数字人伴播系统。该工具已覆盖娱乐、电商等多领域,成为头部主播标配,未来将持续深化AI应用,探索元宇宙直播等创新方向。

  • 三星Neo QLED 8K QN900F评测:拥抱AI 重新定义家庭影院新标准

    三星在2025年推出搭载Vision AI技术的Neo QLED 8K QN900F电视,通过AI影像增强和8K分辨率带来极致画质体验。金属边框设计融合艺术画廊功能,可展示数字艺术作品。防眩光技术和量子点矩阵技术Pro提升明暗对比,AI音画追踪技术配合HW-Q990F音响系统打造沉浸式视听效果。内置SmartThings网关实现智能家居控制,Bixby语音助手提供个性化交互。这款旗舰产品将艺术、科技与AI完美结合,重新定义了高端家庭娱乐体验。

  • 全球首个女肿瘤AI大模型 “木兰”正式进入临床应用

    快科技5月14日消息,华中科技大学宣布,全球首个女性肿瘤AI大模型木兰”,正式进入临床应用阶段。目前,公众可通过华中科技大学同济医院”公众号或掌上同济”APP,在互联网医院下的同济木兰AI咨询”栏目中获得免费服务。未来,该模型还将通过更多手机端线上平台、电脑端应用以及各级医疗机构等多种渠道,向公众开放。据介绍,木兰”由华中科技大学同济医学院附属同济医院主导研发,该模型以国内外权威的女性肿瘤医疗指南和高质量专家共识为基础,融合了同济医院近20年来的高质量病例数据。还整合了中国工程院院士、同济医院妇产科学系主任

  • 扎克伯格要用 AI 替换你的朋友、你的心理治疗师……

    扎克伯格曾说要用 Facebook 帮助我们与朋友、家人更好地建立联系,然而,二十年后,孤独感却愈发强烈。如今,他又说要用 AI 解决我们的孤独……

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

今日大家都在搜的词:

热文

  • 3 天
  • 7天