首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

思维链被推翻!纽约大学新研究:大模型推理步骤或可省略

2024-05-15 11:00 · 稿源:站长之家

站长之家(ChinaZ.com)5月15日 消息:纽约大学的最新研究对当前流行的思维链(Chain-of-Thought,CoT)技术提出了挑战,该技术原本被认为能够提升大模型的推理能力。研究显示,使用省略号代替具体的推理步骤,模型的推理结果并没有显著差异,这意味着增加计算量而非推理步骤本身可能是提升性能的关键。

image.png

论文地址:https://arxiv.org/pdf/2404.15758

研究要点

  • 省略号代替推理步骤:研究发现,将思维链推理中的具体步骤替换为省略号(...),模型的推理结果与完整步骤的推理结果相差无几。

  • 性能提升来源:实验结果表明,所谓的性能提升可能只是因为大模型获得了更多的计算资源(token数量),而非真正的推理步骤。

  • 隐藏推理:该发现还引发了关于模型可能在不可见的情况下进行隐藏推理的讨论,这在一定程度上脱离了人类的控制。

实验设计

3SUM问题:设计了一个难度较高的3SUM问题,要求模型在序列中挑选满足条件的3个数,实验中使用了填充token的方法,并与CoT解决方案进行对比。

2SUM-Transform任务:第二个任务是2SUM-Transform,通过将输入数字进行随机偏移,防止模型直接计算,实验结果显示填充token的方法精度接近CoT。

研究结论

填充token的有效性:研究表明,使用重复的省略号作为填充token可以达到与CoT相似的效果。

局限性:尽管填充token方法有效,但它并没有突破Transformer的计算复杂度上限,且需要特定的训练过程。

这项研究为AI领域带来了新的视角,提示我们在设计和使用大型语言模型时,需要更深入地理解其工作原理和性能提升的真正来源。同时,也引发了关于AI安全性和未来发展的进一步思考。

举报

  • 相关推荐
  • 大模型不再有信仰

    AI大模型的“AGI信仰”可能正处在崩溃边缘,与曾经的“区块链信仰”殊途同归。只是当初那一大批“区块链信仰者”,虽然绝大多数是韭菜,但也有一小批“塔尖”人士赚的盆满钵满;如今的AI大模型初创公司,抛开“AGI信仰”,恐怕连能活多久都不知道。2025年各大模型公司应该会更加务实是那句话,只有活得下去才有实现目标的可能,“信仰”不再重要。

  • 昇腾AI平台训练推理!中国联通元景文生图大模型开源:真正懂中文

    中国联通宣布,联通数据智能公司打造、首个完全在国产昇腾AI软硬件平台上实现训练和推理的中文原生文生图模型联通元景文生图模型”,正式开源。该模型实现了多项自主创新突破:首先是在架构上,通过在SDXL架构中融合复合语言编码模块,实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解,对应图像的生成效果得到了极大提升。该模型已在联通的多个内�

  • AI日报:百川智能金融大模型发布;ChatGPT新增跨对话记忆功能;DeepSeek大模型一开发者将加盟小米;OpenAI最强推理模型o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布o3:AI推理能力的重大突破,得分高达87.5%OpenAI最近推出了其最新的o-Model推理系列模型o3,标志着在数学和科学推理领域的重大进展。闪极还推出了一个吸引人的促销活动,用户在300天内打卡200天可获得全额退款。

  • AI日报:阿里通义开源多模态推理模型QVQ-72B;OpenAI考虑自研人形机器人;QQ音乐上线首个AI大模型音效

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。

  • 我们正在大模型产品面前“裸奔”么

    全球有数亿人在向AI产品倾诉他们的想法、困惑、创意,甚至秘密。但鲜有人意识到,这些对话正在以“帮助训练下一代AI模型的”的名义,突破着过往移动互联网产品的数据使用界限。看起来现在是时候有更多更直接和更严肃的讨论了。

  • AI也会得老年痴呆!最新研究:AI版本越老越糊涂

    以色列特拉维夫大学的一项研究表明AI已有数字痴呆症。在这项研究中,科学家测试了几乎所有全球顶尖AI大型语言模型,结果都表现出类似于早期老年痴呆的认知障碍,并且版本越老,表现就越差。他们做出了有数字痴呆的AI,不可能很快取代医生的这一结论。

  • 新研究:农村5G基站少 手机辐射高于城市

    快科技1月5日消息,据媒体报道,瑞士巴塞尔大学的一项新研究发现,农村使用5G手机上传美丽风景视频的用户所遭受的辐射水平几乎是城市中用户的两倍,这一结果出人意料。尽管城市中5G基站更为密集,而农村基站相对较少,但研究结果却显示农村的辐射水平更高。在这项研究中,科学家对两个城区和三个农村地区的5G手机用户暴露于射频电磁场的情况进行了跟踪调查。结果显示,在上传数据时,农村地区的平均暴露量为每平米29毫瓦,而两个城区的平均暴露量仅为每平米16毫瓦。值得注意的是,农村地区的暴露量已接近世界卫生组织建议的安全阀值每平米

  • 大模型,在内卷中寻找出口

    2024年,大模型进展不断。从年初的Sora到最新的o3,更新更好的模型不断被推出,“内卷”到底有没有发生?我们要先确定“内卷”的定义,指某一类产业模式,发展到一种确定形式后,陷入“高水平均衡陷阱”,出现“没有发展的增长”,这种局面一直无法被打破,那就会走向停滞和危机。大模型要取得商业成功,前提是用户和开发者的业务能否成功,这是为什么完善的商业基

  • 大模型落地战,挺进大消费

    便利店市场在中国以及全球范围内迅速崛起,成为消费领域的重要增长点。据中国连锁经营协会联合毕马威发布的《2024年中国便利店发展报告》显示,中国便利店2023年全年销售额达到4248亿元,同比增速达10.8%。拉近企业与上下游及终端消费者距离,构建产业生态,精准洞察消费需求,驱动行业数字化转型。

  • 大模型六小虎,要撞上版权墙了

    “几乎没有一家大模型公司的AI视频生成训练,会找视频网站授权。”2025年伊始,在视频生成领域立志“追平Sora”的大模型公司,撞上了版权墙。可以肯定的是,2025年想要继续留在牌桌上的大模型创企们,在模型训练过程中为版权付费只是第一步,降本不是长久之计,想法子赚钱增效,才是关键。