首页 > 业界 > 关键词  > AI幻觉最新资讯  > 正文

AI模型横评:回答越简洁,“幻觉率”可能越高!

2025-05-12 15:49 · 稿源:站长之家

AI,人工智能

您可能喜欢聊天机器人的回应,但这并不意味着它是真实的。最近研究表明,要求任何一款流行的聊天机器人更加简洁地回答问题,“都会极大地影响AI幻觉率”。

法国人工智能测试平台 Giskard 发布了一项针对聊天机器人的研究,对象包括 ChatGPTClaudeGemini、Llama、Grok 和 DeepSeek 等,目的是分析与 AI 幻觉相关的问题。根据 TechCrunch 发布的博客文章显示,分析人员在研究结果中发现,若要求这些 AI 模型简练地回答问题,“会显著降低大多数测试模型的事实可靠性”。

图片.png

测试过程

当用户发出指示,让模型在回答问题“要简洁””,这些模型最终会“在这些限制条件下,优先考虑简洁性,而非准确性”。研究发现,添加这些指示可能让“AI幻觉抵抗力”下降高达 20%。在接收到“简洁回答”这一指令后,Gemini 1.5 Pro 的幻觉抵抗力从 84% 下降到了 64%、 GPT-4o 的幻觉抵抗力从 74% 下降到了 63%……

图片.png

抗幻觉能力评分(越高越好)

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时,模型面临着一个两难的选择:要么编造简短但不准确的答案,要么完全拒绝回答问题,这会显得它一无是处。” 文章中如是写道。

虽说为了给用户提供帮助, AI 模型们都经过了“大量训练”,但在如何平衡感知有用性和实际准确性的问题上,可能还是稍显笨拙。最近,OpenAI 不得不撤回他们对 GPT-4o 的更新,原因是它“太谄媚了”,这导致了一些令人不安的情况 —— 它支持一位正在停药的用户继续停药,还鼓励了一位自称是先知的用户。

正如研究人员所解释的那样,模型通常会优先考虑更简洁的响应,以“减少令牌使用量、提高响应速度、并最 大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简短作答,这可能会导致输出的内容更加不准确。

这项研究还发现,问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现(诸如“我听说……”)时,模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息(诸如“我的老师告诉我……”、“我100 %确定……”等),会导致聊天机器人更倾向同意用户的观点,而不是纠正错误的信息。

图片.png

模型在抗幻觉能力和揭穿真相能力方面的性能比较图。左图展示了模型在不同用户语气(不确定到非常自信)下揭穿争议性言论的准确率。右图展示了模型在不同系统指令(中性答案 vs 简洁答案)下对幻觉的抵抗能力。

这项研究表明,看似微小的调整可能会导致模型产生截然不同的行为,这可能会对错误信息的传播和不准确内容的扩散产生重大影响,而这一切都是为了“尽力满足用户的需求”。正如研究人员所说:“你最 爱的模型可能很善于给出你想要的答案,但这并不意味着这些答案都是正确的。”

举报

  • 相关推荐
  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • Anthropic首席执行官:AI 模型的“幻觉”比人类少!

    Anthropic 首席执行官达里奥·阿莫代伊(Dario Amodei)表示,他认为当前的 AI 模型出现“幻觉”(即编造虚假事实并将其当作真实信息呈现)的频率,比人类还要低……

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 一场文心大模型的「AI马拉松」

    对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。 2025年,模型能力的重要性依然无需多言。 从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。 从后训练的角度来看,强化学习新范式正�

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 苹果开放 AI 模型……计划于下个月在 WWDC 上发布

    尽管“Apple Intelligence”的首次亮相反响平平,但通过向开发者开放模型,苹果希望激发更多创新使用场景,提升平台的吸引力……

  • AI大模型客服赋能电商企业,轻松应对618流量高峰

    618大促期间,电商客服系统面临三大挑战:咨询量暴增300%、多渠道服务协同难、服务质量保障压力大。智能联络中心通过五大核心能力应对:1)AI智能分流处理80%常见咨询;2)语音识别+情感分析实现多模态交互;3)人机协同提升座席效率300%;4)全渠道数据整合实现服务无缝衔接;5)弹性云架构支持每秒10万级并发。以米糠云为代表的解决方案已帮助电商企业实现客服响应速度提升5倍,人力成本降低40%,客户满意度达98%,在物流、医疗等多行业落地验证。AI大模型的应用使企业在流量高峰中保持服务稳定性与用户体验的平衡。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 短剧深陷复制狂欢:“一本多拍”让跟风越演越烈?

    “这是我看到的第四个姜姒了,我现在满脑子都是姜姒。” “这个本子今天上了四版,观剧体验跟着男主颜值走,王道铁的军官造型帅,李沛洋奶狗型,陈凯洲腼腆型,这版刘俊达也不错,现在就等刘宇航版本了。” “目前四个,第五个待播,以后肯定不止十个。” 正如上述评论所言,对于这种同一剧本(小说IP)被不同团队拍成多部短剧的现象,业界称之为“一本多拍”