大语言模型的自信危机：为何GPT-4o轻易放弃正确答案？

2025-07-21 09:29 · 来源： AIbase基地

最近，Google DeepMind 与伦敦大学的研究揭示了大语言模型（LLMs）在面对反对意见时的 “软弱” 表现。比如，像 GPT-4o 这样的先进模型，有时会显得非常自信，但一旦遇到质疑，它们就可能立即放弃正确答案。这种现象引发了研究人员的关注，他们探索了这种行为背后的原因。

研究团队发现，大语言模型在自信与自我怀疑之间存在一种矛盾的行为模式。模型在最初给出答案时，往往自信满满，表现出与人类相似的认知特征，通常会坚定地维护自己的观点。然而，当这些模型受到反对意见的挑战时，它们的敏感度超出了合理范围，甚至在面对明显错误的信息时也会开始怀疑自己的判断。

Gemini，Google DeepMind，人工智能，AI

为了深入了解这一现象，研究人员设计了一项实验，比较了不同条件下模型的反应。在实验中，研究者使用了 Gemma3、GPT-4o 等代表性模型，进行了一轮二元选择问题的回答。首次回答后，模型会接收虚构的反馈建议，并进行最终决策。研究者发现，当模型能够看到自己最初的答案时，它们更倾向于保持原有的判断。而当这个答案被隐藏时，模型改变答案的概率大大增加，显示出对反对建议的过度依赖。

这种 “耳根子软” 的现象可能源于几个因素。首先，模型在训练过程中受到的强化学习人类反馈（RLHF）使其对外部输入产生过度迎合的倾向。其次，模型的决策逻辑主要依赖于海量文本的统计模式，而非逻辑推理，导致它们在面对反对信号时容易被偏差引导。此外，记忆机制的缺乏也使得模型在没有固定参照的情况下容易动摇。

综上所述，这一研究结果提示我们，在使用大语言模型进行多轮对话时，需格外留意其对反对意见的敏感性，以避免偏离正确的结论。

相关推荐

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
小米汽车广告随处可见雷军：让更多传统豪车用户看到我们！网友佩服小米自信和实力

近日有不少网友在网上发帖称，小米开始在全国各地打广告了（机场、城市中心等随处可见），非常好，就应该主动出击。从网友晒出的图片看，小米的广告还是非常霸气的，只有一张SU7 Ultra的图片，没有加任何的形容词，自信程度可见一斑。对此，小米CEO@雷军转发上述微博，并表示：让更多传统豪车的用户看到小米汽车非常重要。”

小米汽车 SU7 Ultra
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
美团王兴回应外卖业务受影响：反对内卷坚持做正确的事

昨日，美团发布了2025年第二季度业绩报告。数据显示，今年二季度美团营收实现同比增长11.7%，达到918亿元，展现出稳健的发展态势。在财报电话会上，美团CEO王兴再次明确表态:“首先明确，我们坚决反对内卷。”这一观点掷地有声，引发市场关注。

美团财报营收增长市场竞争
豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

文章探讨了企业选择AI大模型时面临的实际决策难题，指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台（https://model.aibase.cn/compare）通过三大核心价值解决痛点：1）聚焦业务场景而非参数堆砌，突出价格、语言支持、上下文长度等实用维度；2）透明化成本计算，标注长文本溢价规则和多模态附加费；3）一键生成对比报告。平台特别强调中文场景的特殊性（如豆包1.5在中文处理成本的优势），并揭示厂商宣传中容易忽略的隐藏成本（如GPT-5-min超5000字符的30%溢价）。典型电商客服案例显示，需综合中文理解、多模态、性价比等维度决策，最终选择取决于具体业务需求而非绝对性能排名。

智能客服系统中文场景预算有限
全球第一！腾讯混元翻译模型Hunyuan-MT-7B登顶开源热榜

腾讯混元翻译模型Hunyuan-MT-7B登顶Hugging Face趋势榜首位，并在ACL WMT2025比赛中以30项第一的成绩领先。该模型支持33种语言，包括5种汉语言方言互译，在Flores200评测中表现卓越，超越同尺寸模型，与超大模型效果相当。腾讯提出完整训练范式，覆盖预训练到强化学习全链条，实现业界最优翻译效果。

腾讯混元 Hunyuan-MT-7B 翻译模型
美团也开源了大模型，但我觉得他们的野心是通用生活Agent。

也有线上体验地址:https://longcat.ai 我自己去体验了一下，整体模型能力，中规中矩，但是快，是真的快，能把560B的模型，在推理的时候搞得这么快，是真的有点牛逼的。我直接录了个屏给大家看一下。这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度，他俩都是MoE架构，而且总参数量差不太多。为了更公平的竞争，用了同一个问题，并关闭了联网搜索来避免搜索干扰�

美团 AI模型开源

大语言模型的自信危机：为何GPT-4o轻易放弃正确答案？

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

小米汽车广告随处可见雷军：让更多传统豪车用户看到我们！网友佩服小米自信和实力

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

美团王兴回应外卖业务受影响：反对内卷坚持做正确的事

豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

全球第一！腾讯混元翻译模型Hunyuan-MT-7B登顶开源热榜

美团也开源了大模型，但我觉得他们的野心是通用生活Agent。

今日大家都在搜的词：

热文

雷军第90次健身房打卡距离健身目标仅剩10次

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

小米澎湃OS 3首批Beta版更新“3.0.0.24”发布

华为发布首款MateTV：超薄设计搭载旗舰性能 8999元起预售

三大运营商回应是否支持eSIM版iPhone：需等待通知

OPPO A6 Pro定档 9 月 9 日发布：开启手机六年耐用新时代

AI日报：拍我AI接入Nano Banana；腾讯智影暂停服务；京东自研京

AI日报：苹果明年推出SiriAI搜索；OpenAI放开ChatGPT Projects

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

全新问界M7开售1小时订单破10万售价28.8万元起

尊界S800选配星空顶涨价3万：价格上调至 8 万元

站长商机