首页 > 业界 > 关键词  > AI幻觉最新资讯  > 正文

AI模型横评:回答越简洁,“幻觉率”可能越高!

2025-05-12 15:49 · 稿源:站长之家

AI,人工智能

您可能喜欢聊天机器人的回应,但这并不意味着它是真实的。最近研究表明,要求任何一款流行的聊天机器人更加简洁地回答问题,“都会极大地影响AI幻觉率”。

法国人工智能测试平台 Giskard 发布了一项针对聊天机器人的研究,对象包括 ChatGPTClaudeGemini、Llama、Grok 和 DeepSeek 等,目的是分析与 AI 幻觉相关的问题。根据 TechCrunch 发布的博客文章显示,分析人员在研究结果中发现,若要求这些 AI 模型简练地回答问题,“会显著降低大多数测试模型的事实可靠性”。

图片.png

测试过程

当用户发出指示,让模型在回答问题“要简洁””,这些模型最终会“在这些限制条件下,优先考虑简洁性,而非准确性”。研究发现,添加这些指示可能让“AI幻觉抵抗力”下降高达 20%。在接收到“简洁回答”这一指令后,Gemini 1.5 Pro 的幻觉抵抗力从 84% 下降到了 64%、 GPT-4o 的幻觉抵抗力从 74% 下降到了 63%……

图片.png

抗幻觉能力评分(越高越好)

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时,模型面临着一个两难的选择:要么编造简短但不准确的答案,要么完全拒绝回答问题,这会显得它一无是处。” 文章中如是写道。

虽说为了给用户提供帮助, AI 模型们都经过了“大量训练”,但在如何平衡感知有用性和实际准确性的问题上,可能还是稍显笨拙。最近,OpenAI 不得不撤回他们对 GPT-4o 的更新,原因是它“太谄媚了”,这导致了一些令人不安的情况 —— 它支持一位正在停药的用户继续停药,还鼓励了一位自称是先知的用户。

正如研究人员所解释的那样,模型通常会优先考虑更简洁的响应,以“减少令牌使用量、提高响应速度、并最 大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简短作答,这可能会导致输出的内容更加不准确。

这项研究还发现,问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现(诸如“我听说……”)时,模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息(诸如“我的老师告诉我……”、“我100 %确定……”等),会导致聊天机器人更倾向同意用户的观点,而不是纠正错误的信息。

图片.png

模型在抗幻觉能力和揭穿真相能力方面的性能比较图。左图展示了模型在不同用户语气(不确定到非常自信)下揭穿争议性言论的准确率。右图展示了模型在不同系统指令(中性答案 vs 简洁答案)下对幻觉的抵抗能力。

这项研究表明,看似微小的调整可能会导致模型产生截然不同的行为,这可能会对错误信息的传播和不准确内容的扩散产生重大影响,而这一切都是为了“尽力满足用户的需求”。正如研究人员所说:“你最 爱的模型可能很善于给出你想要的答案,但这并不意味着这些答案都是正确的。”

举报

  • 相关推荐
  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 酷似林依晨的曼联女孩高考出分 激动称“越努力越幸运”

    6月24日,重庆高考成绩公布,众多考生怀着忐忑又期待的心情查询分数。当日,一位笑容明媚、因酷似林依晨而在网络上走红的女生也迎来了自己的高考成绩揭晓时刻。 在得知成绩的瞬间,女生难掩激动之情,兴奋地分享起自己的喜悦。她表示,这次高考成绩是有史以来考得最高的一次,分数远远超出了本科线。回想起备考的日子,她感慨万千,直言“越努力越幸运是对的”

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • AI大模型客服赋能电商企业,轻松应对618流量高峰

    618大促期间,电商客服系统面临三大挑战:咨询量暴增300%、多渠道服务协同难、服务质量保障压力大。智能联络中心通过五大核心能力应对:1)AI智能分流处理80%常见咨询;2)语音识别+情感分析实现多模态交互;3)人机协同提升座席效率300%;4)全渠道数据整合实现服务无缝衔接;5)弹性云架构支持每秒10万级并发。以米糠云为代表的解决方案已帮助电商企业实现客服响应速度提升5倍,人力成本降低40%,客户满意度达98%,在物流、医疗等多行业落地验证。AI大模型的应用使企业在流量高峰中保持服务稳定性与用户体验的平衡。

  • 短剧深陷复制狂欢:“一本多拍”让跟风越演越烈?

    “这是我看到的第四个姜姒了,我现在满脑子都是姜姒。” “这个本子今天上了四版,观剧体验跟着男主颜值走,王道铁的军官造型帅,李沛洋奶狗型,陈凯洲腼腆型,这版刘俊达也不错,现在就等刘宇航版本了。” “目前四个,第五个待播,以后肯定不止十个。” 正如上述评论所言,对于这种同一剧本(小说IP)被不同团队拍成多部短剧的现象,业界称之为“一本多拍”

  • 郭明錤点评苹果WWDC25:AI再不努力 将被对手越甩越远

    今日,苹果召开WWDC2025开发者大会,发布iOS26、iPadOS26等操作系统。 WWDC2025结束后,天风国际证券知名苹果分析师郭明錤发布评价,他认为,苹果AI再不努力 将被对手越甩越远。 郭明錤称,对投资人来说,WWDC 2025最重要的是的AI,其他的更新如界面设计都是次要。 虽然AI竞争像一场马拉松,而非单一事件决定输赢,但WWDC 2025应该让大部分的投资人期待落空。

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • 今年第一批吃菌子中毒的人出现了:小伙出现幻觉 隔空抓物

    微博话题今年第一批吃菌子中毒的人出现了”引发关注。 据媒体报道,云南的胡先生吃野生菌后中毒致幻,躺在病床上隔空抓物,胡先生称自己看到了乌贼、水母、蜘蛛、螃蟹等等生物。 目前毒菌中毒尚无特效疗法,因为毒菌成分复杂,一般发现的野生菌中毒症状有胃肠中毒型、神经精神型、溶血型、呼吸与循环衰竭型、肝脏损害型等,其中肝脏损害型最为凶险,典型表现�