首页 > AI头条  > 正文

​AI聊天机器人在社交判断测试中超越人类,或成社交互动顾问

2024-12-04 11:17 · 来源: AIbase基地

最近,发表在《Scientific Reports》上的一项研究显示,某些先进的 AI 聊天机器人在评估复杂社交情境方面的表现优于人类。

研究人员利用一种被广泛使用的心理学工具 —— 情境判断测试,发现三个聊天机器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手,在选择最有效的行为反应方面,超过了人类参与者的表现。

AI机器人写论文

图源备注:图片由AI生成,图片授权服务商Midjourney

随着社会交往日益重要,AI 在社交互动中的潜力不断显现,包括在客户服务和心理健康支持等领域的应用。大型语言模型(如本次研究中测试的聊天机器人)能够处理语言、理解上下文并提供有效的回应。尽管之前的研究已证明这些模型在学术推理和语言任务中的能力,但它们在复杂社交动态中的有效性仍未得到充分探索。

研究团队对276名人类参与者进行了测试,这些参与者是高素质的飞行员申请者。研究采用了情境判断测试,展示了12个需要评估的情境,每个情境提供四种潜在的行为选项。研究人员比较了五个 AI 聊天机器人的表现,发现所有测试的聊天机器人在表现上至少与人类持平,甚至有的表现更佳。Claude 的表现最佳,随后是 Microsoft Co pilot 和 you.com 的智能助手。

有趣的是,当聊天机器人没有选择最佳反应时,它们往往选择了第二有效的选项,显示出与人类决策模式的相似之处。这表明 AI 系统虽然不是完美的,但在社交判断和概率推理方面具备一定的能力。

此外,研究还发现不同 AI 系统之间的可靠性差异。Claude 在多次测试中表现出最高的一致性,而 Google Gemini 在不同测试中可能会出现矛盾的评分结果。尽管如此,所有 AI 系统的整体表现超出预期,展示了它们在提供社交能力建议方面的潜力。

研究人员指出,虽然许多人已经在日常任务中使用聊天机器人,但在社交互动的复杂场景中,它们的表现仍需进一步验证。研究显示,大型语言模型在模拟的社交情境中表现出色,但它们并不具备真实的情感,这对真正的社交行为是必需的。

划重点:

🌟 AI 聊天机器人在复杂社交判断中表现优于人类,具有潜力作为社交顾问。

🧠 研究比较了多个聊天机器人的表现,发现 Claude、Microsoft Co pilot 表现突出。

⚖️ 尽管 AI 系统在模拟情境中表现良好,但在真实社交互动中的应用仍需进一步研究。

  • 相关推荐
  • 对话五条人AI MV主创:究竟是人带着AI飞,还是AI带着人类飞

    五条人的美学坐标,锚定在一些具体的意象上,比如县城、故事、人字拖,以及那个标志性的红色塑料袋。他们的音乐与视觉,植根于一种生猛、市井、充满“塑料感”的现实肌理之中。 这样一个极具草根性与现实质感的乐队,与当下最前沿的AIGC技术相遇,结果会是什么? 答案可能就在他们最新专辑同名曲《地球恋曲》的官方MV里。 身着银色宇航服的二人,背着一个巨大的�

  • 在厨房里社交,斐雪派克奢适生活馆入驻银川

    现代厨房正从单纯的烹饪场所升级为情感社交中心。斐雪派克7月26日在银川开设的奢适生活馆,以"社交厨房"为核心理念,通过超长岛台实现烹饪与社交功能融合,让用户既能展示厨艺,又能与亲友共享美食乐趣。其创新设计包括精准控温的电磁灶、模块化组合设备和嵌入式冰箱,既满足多人协作需求,又提升烹饪仪式感。这反映了厨电行业从功能满足到场景重构的进化趋势,让烹饪成为连接情感的生活方式体验。

  • 曝特斯拉Gen3机器人明年入华量产:普通人也能买

    特斯拉第三代Optimus人形机器人已在美国工厂开始实测,预计2025年面向中国消费市场推出,2026年实现量产,5年内计划年产能达100万台。相比前两代,第二代产品减重10公斤,行走速度提升30%,手部自由度增至22个,新增颈部活动能力。第三代将重点提升执行复杂任务能力,如叠衣服、照顾小孩等。特斯拉计划2025年生产1-1.2万台零部件,2026年量产10万台,2027年提升至50万台。中国市场规模预计2030年突破千亿元,全球市场2035年有望达1.12万亿元。

  • 普渡机器人发布AI扫吸推机器人PUDU MT1 Vac,重新定义智能吸尘新标准

    普渡科技7月15日发布AI扫吸推机器人PUDU MT1Vac,专为大面积吸尘场景设计。产品采用双独立风道系统,吸尘效率提升200%,配备20L超大容量尘污分离系统,单次作业可覆盖1000㎡酒店地毯清洁需求。机器人具备55cm超宽吸尘宽度,集成HEPA级过滤系统,能识别不同地面材质自动调节吸力。搭载激光SLAM+视觉VSLAM融合定位系统,适应酒店、商超等复杂场景。该产品填补了大容量高效吸尘机器人市场空白,推动行业智能化升级。

  • 普渡机器人发布大载重工业配送机器人PUDU T600系列,助力工业物流市场革新

    普渡机器人7月24日发布全新工业配送机器人PUDU T600系列,提供标准版和潜伏版两种形态。该系列具备600kg超大运载能力,支持智能货架识别、自主乘梯调度和多机协作功能,兼容VDA5050通信协议。创新配备灾害避险模块,支持私有化部署保障数据安全。产品适用于电子、半导体、新能源等工业场景,助力构建高效智能物流体系。作为全球服务机器人领军企业,普渡科技专注移动�

  • 从数字世界迈向物理世界!清华×生数发布最新成果Vidar,基于视频大模型实现机器人物理操作

    清华大学生数科技团队研发的Vidar模型实现具身智能重大突破,首次让通用视频大模型具备"手脚"功能。该模型通过三级数据架构(海量通用视频+中等规模具身视频+少量机器人特定数据),仅需20分钟机器人真机数据即可快速泛化到新机器人本体,数据量仅为行业领先方法的1/80-1/1200。Vidar创新性地将任务解构为上游视频预测和下游动作执行,结合逆动力学模型实现视觉-

  • 空调行业跟风较上劲 !海尔风随人动、避人吹,格力也推出空调机器人

    2025年上半年空调市场持续火热,线上销售额同比激增50%,线下增长16%。美的、格力、海尔三大品牌占据约70%市场份额,并在"送风体验"创新领域展开激烈竞争。海尔推出"聪明风系列"应用AI人感防直吹技术,实现"风随人动";美的升级无风感技术,内置毫米波雷达2.0系统;格力则推出"空调机器人控制"专利技术,通过多模态模型动态调节送风。三大巨头通过技术创新保持市场优势,上半年份额出现细微波动(海尔+0.7%、美的+0.1%、格力-1.4%),显示行业竞争持续升级。

  • 解锁商务社交新姿势,名片全能王助力展示多维实力

    本文探讨了数字化时代商务社交的变革趋势。传统纸质名片存在信息容量有限、更新不便、易损坏等问题,而"名片全能王"等数字名片凭借便捷性、高效性和丰富的信息承载能力成为新宠。数字名片支持文字、图片、视频等多种媒体内容,能全方位展示个人或企业实力,同时提供统一的企业形象管理功能。其优势还包括文档实时更新、信息高效传播、定制品牌小程序等特色服务,助力用户在激烈市场竞争中脱颖而出,开启全新商务社交模式。

  • 玩聚点TR技术引爆线下社交,碰一碰解锁真人大富翁!

    上海商场出现新型社交娱乐方式"玩聚点"(POLYPLAY),通过智能手环触碰商场内的能量方块进行互动游戏。用户可组队竞技、收集积分兑换优惠券,92%测试用户给出4.5分以上好评。该模式融合TR技术(Touch+Reality),将线上游戏乐趣具象化到现实场景,18-35岁年轻用户占60%,家庭用户占30%,既能满足Z世代社交需求,又成为亲子互动新选择。项目将于8月1-4日登陆ChinaJoy展会,现场可通过NFC技术解锁限定徽章和周边奖品。

  • INDEMIND:停止堆功能,扫地机器人需要回归第一性原理

    文章批评当前扫地机器人行业过度追求"花哨"功能而忽视核心清洁能力的问题。厂商为差异化竞争不断叠加视频通话、机械手等创新功能,却导致产品复杂化、故障率上升,用户体验未获实质提升。指出行业应回归本质,聚焦感知、规划、决策三大核心能力升级,解决避障不佳、覆盖率低等基础痛点。介绍INDEMIND公司通过立体视觉技术构建三维语义地图,实现厘米级障碍

今日大家都在搜的词: