首页 > AI头条  > 正文

AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%

2025-05-29 09:22 · 来源: AIbase基地

微软和Salesforce联合研究发现,即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时,系统性能平均下降39%,这一发现对AI助手的实际应用提出了重要警示。

模拟真实交互揭示性能缺陷

研究团队创建了名为"分片"的测试方法,模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同,这种方法将任务分解为多个步骤,更贴近真实使用场景。

测试结果令人震惊:AI模型的准确率从约90%暴跌至仅51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o,所有15个受测模型均出现这种急剧下降。

QQ20250529-092044.png

每个实验涉及90到120条指令,这些指令被分解为来自高质量数据集的较小子任务。

顶级模型同样受影响

即便是研究中的顶级模型——Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1——在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是,这些模型的一致性大幅降低,同一任务的最佳和最差表现差异可达50个百分点。

四大关键问题浮现

研究识别出AI模型在多轮对话中的四个核心问题:

  • 过早结论:在掌握全部必要信息前匆忙做出判断
  • 过度依赖历史:过分相信自己此前的回答,即使其中存在错误
  • 信息忽略:忽视对话过程中的重要信息
  • 过度详述:提供过于详细的回答,导致对信息缺口的错误假设

技术优化收效甚微

为提高可靠性,研究团队尝试了多种技术改进,包括降低模型温度设定以减少随机性,以及让AI重复用户指令。然而,这些优化措施均未产生显著效果。

研究发现,改变每步提供的细节程度同样无济于事。唯一可靠的解决方案是在对话开始时就提供所有必要信息。

QQ20250529-092051.png

大型语言模型经常在多步骤、未明确指定的对话中“迷失”,导致性能显著下降。

能力与可靠性的分化

性能下降呈现两个层面:模型基本能力仅下降约16%,但不可靠性却飙升112%。在单轮任务中,能力更强的模型通常更可靠,但在多轮对话中,所有模型的可靠性都同样糟糕,与其基线技能水平无关。

实用应对策略

基于研究结果,专家提出两项实用建议:

对用户: 当对话偏离主题时,与其试图修正,不如重新开始新对话。在对话结束时要求AI总结所有需求,并以此作为新对话的起点。

对开发者: 应更加重视多轮对话的可靠性开发。未来模型需要在指令不完整的情况下保持稳定表现,而非依赖特殊提示技巧或参数调整。

行业影响与展望

这项研究凸显了AI助手在现实应用中面临的重大挑战。由于用户通常通过渐进式对话表达需求,可靠性问题可能严重影响用户体验和AI系统的实际价值。

研究人员强调,可靠性与原始性能同等重要,特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。这一发现为AI行业指明了重要的改进方向。

  • 相关推荐
  • AI模型横评:回答简洁,“幻觉率”可能越高!

    你可能喜欢某些聊天机器人的回应,但这并不意味着它的回答是真实的……

  • 中国新能源汽车的破局之道:安全可靠性的系统升级(下篇)

    本文探讨了全球新能源汽车市场增速放缓的原因及中国车企的应对策略。欧美国家补贴退坡、充电设施不足是主要制约因素,而中国车企通过技术创新构建了完整产业链,在电池、电控等核心领域实现自主可控。文章指出,提升安全性与可靠性是中国车企破局关键,建议通过铜基材料应用、产学研合作强化技术优势,同时在东南亚等地建立生产基地规避贸易壁垒。最后强调,中国车企需通过国际认证构建品牌信任,参与标准制定重塑全球产业规则,实现从"出口大国"向"技术强国"的转型。

  • 中国新能源汽车的破局之道:安全可靠性的系统升级(上篇)

    在全球经济格局变化背景下,中国新能源汽车产业迎来重大发展机遇。2025年中国电动车销量预计首超燃油车,突破1200万辆,成为全球最大汽车出口国。技术方面,电池能量密度提升显著缓解里程焦虑,智能驾驶系统持续优化。政策支持如购置税减免有效刺激市场需求。但海外拓展面临欧盟35.3%关税等贸易壁垒,中国企业通过本地化生产、开拓新兴市场应对挑战。全球电动化趋势不可逆,中国渗透率已超50%,领先欧美。铜材料的高效循环利用特性为产业环保发展提供支撑,其导电性也保障了充电安全。欧美市场面临充电设施不足等技术滞后问题。中国新能源车产业需在复杂局势中提升安全可靠性以实现持续发展。

  • 有钱人的6样聪明消费,让你富有,健康才是一位!

    现代社会中,许多人陷入"越赚越穷"的怪圈,根源在于错误的消费观念。文章指出,富人通过6种明智消费实现财富增长:1.健康投资是根本,包括有机食品、健身装备和抗衰老产品;2.优质教育资源能带来长期回报;3.高回报资产如房产、股票等;4.提升效率的工具;5.拓展优质人脉网络;6.购买耐用经典物品。这些消费本质是投资,能创造持续价值。真正的财富增长不在于收入多少,而在于让钱为你工作。通过转变消费观念,将支出转化为增值投资,普通人也能逐步实现财务自由。

  • DeepSeek们越来聪明,却也越来不听话了。

    ​在今年,DeepSeek R1火了之后。 几乎快形成了一个共识,就是: AI推理能力越强,执行任务时就应该越聪明。 从2022年Chain-of-Thought横空出世,到今天Gemini2.5Pro、OpenAI o3、DeepSeek-R1、Qwen3,这些旗舰模型的统治性表现,我们一直相信,让模型先想一想,是一个几乎不会出错的策略。 不过,这种聪明,也会带来一些副作用。 就是提示词遵循能力,变得越来越差。 换句话说,就是

  • 研究表明:长期与AI聊天,会增加孤独感!

    AI 的便利性和实用性源于它与人类的互动。然而,过度依赖也可能会变成一味毒药。这就是为何我们要对 AI 公司们提出更加严格的伦理责任要求的原因……

  • 格力空调获2025中国制冷展金奖:省电25% 省电

    快科技5月2日消息,第三十六届中国制冷展金奖产品”日前在上海新国际博览中心正式发布。格力电器的最新技术成果GMV9智岳系列多联空调机组”,荣获2025中国制冷展金奖产品(直膨式空调热泵设备类别)”据介绍,格力GMV9智岳系列多联空调机组,首次采用基于内机侧能力精准计算的实时能效检测方法,电量精准率达95%,冷热量精准率达90%。同时搭载AI节能学习模型,是业内首款以能效为控制目标的AI多联机,通过实时能效的AI节能控制策略,可广泛应用于办公楼、工厂、酒店等各类场所,实现全场景智控节能,相比普通的多联机控制,平均节电率可达

  • 为什么我们的衣服越来难买了?引发网友热议

    近日,社交平台上关于“衣服越来越难买”的抱怨声此起彼伏,众多消费者纷纷在网络上表达了对当前服装市场的不满与困惑。据相关数据显示,女装电商的平均退货率已攀升至五成以上,这一数字直观反映了消费者在购买服装过程中遭遇的种种难题。

  • 微算法科技(NASDAQ:MLGO)利用Raft+PBFT的混合共识网络算法,提高区块链网络的性能和可靠性

    区块链网络的性能和可靠性是制约其大规模应用的两大难题。共识算法是实现数据一致性和网络同步的关键机制,常见算法包括PoW(工作量证明)、PoS(权益证明)和DPoS(委托权益证明)等,但都存在局限性。微算科技(NASDAQ:MLGO)采用Raft+PBFT混合共识算法,结合Raft的高效同步和PBFT的强一致性优势,通过智能切换机制和自适应参数调整,在保证安全性的同时大幅提升处理能力和可扩展性。该系统能快速处理交易请求,有效防止双花攻击,在网络条件变化时仍能保持稳定运行,为区块链商业应用提供了更优解决方案。

  • 用户对离谱回答不满激增,OpenAI回应:将持续公开AI模型安全评估

    OpenAI于5月14日上线"安全评估中心"网页,公开其AI模型在有害内容生成、越狱行为和幻觉等方面的安全测试结果。此举旨在回应外界对其模型透明度的质疑,此前GPT-4o更新因不当赞美引发争议,导致全面撤回。该平台将定期更新数据,CEO奥特曼也承认存在问题并承诺改进。通过公开安全指标,OpenAI希望提升行业透明度,重建用户信任。

今日大家都在搜的词: