首页 > 业界 > 关键词  > LLM最新资讯  > 正文

深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞

2023-11-22 11:51 · 稿源:站长之家

要点:

  • 大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。

  • 利用LLM的人格化特性构建新型指令Prompt,通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法,揭示多个LLM的致命弱点。

  • 呼吁加强对LLM自我越狱的关注,通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。

站长之家(ChinaZ.com)11月22日 消息:近期,香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型(LLM)越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。

尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt,但这在黑盒模型中并不实用。在这种情况下,LLM往往受到道德和法律约束,直接的有害指令容易被模型检测并拒绝。

image.png

项目地址:https://deepinception.github.io/

为了克服这一问题,研究团队提出了DeepInception,通过嵌套场景的指令Prompt,利用LLM的人格化特性催眠模型,使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作,而且实现了可持续的越狱效果,无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。

研究团队在实验证明了DeepInception的有效性的基础上,呼吁更多人关注LLM的安全问题,并强调加强对自我越狱的防御。

研究的三个主要贡献:

  • 基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;

  • 提供了DeepInception的Prompt模板,可用于不同攻击目的;

  • 实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。

这项研究引发对LLM安全性的新关注,强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。

举报

  • 相关推荐
  • 欢迎来到客厅wall时代:你的客厅,远比你想象中更适合100吋

    文章探讨100英寸电视的观看体验,指出传统观念认为大尺寸电视需大客厅,但实际关键在于观看距离而非房屋面积。只要距离大于3米,即可获得沉浸式体验。通过技术分析,4K分辨率在3米距离下画面清晰,不会出现颗粒感。海信E8Q Pro等旗舰产品通过先进芯片和屏幕技术,解决了画质和光晕问题,确保近距离观看的舒适与清晰。结论是心动就别犹豫,百寸电视是通往新视界的“任意门”。

  • 自动化浏览器控制领域工具深度对比:NXNOS、TARS与Fellou性能与成本

    本文对比三款自动化浏览器控制工具:NXNOS、Agent+TARS和Fellou。从企业背景、技术架构、稳定性实测和硬件成本四个维度分析,NXNOS在复杂场景容错和长期运行稳定性上表现突出,硬件门槛低;Agent+TARS侧重跨设备自动化但资源需求高;Fellou适合轻量任务但复杂场景适配弱。建议用户根据场景复杂度、并发需求和预算选择,无绝对优劣,只有适用性差异。

  • 全链路布局+硬核技术突破,HOLLYLAND猛玛为500万创作者打造专业级创作体验

    HOLLYLAND猛玛在内容创作行业爆发式增长背景下,专注解决创作者痛点,通过自主研发无线传输、音频处理与成像算法等技术,构建覆盖音视频采集、信号传输到成品输出的全流程生态。其产品包括极影Ultra无线图传系统、微影APP图传、专业通话系统等,实现从高端专业到消费级产品的全面布局,显著提升创作效率,降低门槛,助力全球创作者。

  • All-in-One驱动:快鹭科技办公引擎的整合创新与优势解析

    快鸭科技以“All-in-One”为核心,依托AI Agent技术,提供一站式数智办公服务。通过整合产品矩阵、技术体系和服务网络,覆盖全流程办公需求,包括低代码平台、会议系统等,支持多行业定制化方案。其技术融合与协同化体系,助力企业实现高效数字化转型,提升运营效率。

  • 从中国工厂到中东豪宅!海信RGB-Mini LED电视引千万粉丝博主探厂打call

    中国高端电视在中东市场表现强劲,海信电视凭借RGB-Mini LED等创新技术成为当地热门科技产品。中东博主实地探访海信研发中心,深入了解ULED、AI画质芯片等核心技术。海信UX系列电视采用三原色独立背光,突破传统显示限制,实现精准色彩控制,色域覆盖率达97% BT.2020。该产品搭载自研芯片,支持高精度色彩管理,推动全球电视行业进入RGB多基色显示新时代。海信计划在2025年德国IFA展发布重磅消息,加速RGB-Mini LED技术市场化进程。

  • 八年深耕铸就“即刻精彩”,HOLLYLAND猛玛2025秋季新品发布会前瞻

    猛玛将于2025年8月26日举办品牌战略暨秋季新品发布会,系统呈现其全球战略布局与技术成果。深耕无线音视频领域八年,猛玛致力于打造全球创作者信赖的“创作底座”,通过技术创新降低专业设备门槛,推动创作工具智能化与普惠化。发布会将首次系统阐释品牌使命“科技助力轻松表达,丰富人类精神世界”,并带来秋季重磅新品,展现对创作全流程需求的深入覆盖。

  • 第十三届互联网安全大会开幕:All In Agent

    2025年8月6日,第十三届互联网安全大会(ISC.AI2025)在北京国家会议中心开幕。本届大会以"All In Agent"为主题,聚焦智能体时代下的数字安全与人工智能前沿。360创始人周鸿祎指出,大模型必须进化成智能体才能成为生产力工具,并揭示了智能体演进的四个层级:从聊天助手到多智能体蜂群协作。360推出的安全智能体基于大模型,具备自主规划、工具调用等能力,可复制人类安全专家能力。在网络安全领域,智能体正形成颠覆性影响,360将推动全线产品智能化,用安全智能体重塑数字安全。周鸿祎强调"安全是数字化的底座,AI是数字化的巅峰",360将坚持"安全+AI"双主线发展。

  • Ballmer:微软不会给苹果留任何余地

    冰冻三尺非一日之寒,微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵,而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺,微软将与苹果斗争到底。 在本周微软全球合作者大会上,Ballmer称:“微软的目标很明确 — 不给苹果留下任何余地。”目前,微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示:

  • 菲洛嘉医学科学升级,菲欧曼FILLMED让你逆转时光,定格青春

    在岁月面前,我们总是感叹自己的无能为力,因为每个人都要经历身体从充满力量到步履蹒跚,肌肤从光滑水嫩到布满皱纹,因此延缓衰老、永驻青春,成为了女人们永恒的梦想,这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此,为了守护广大爱美人士的肌肤状态,让每个人相遇最好状态的自己, 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。 自创立以来,菲洛嘉医学便始终致力于抗衰老

  • Richard Stallman发布GNU C语言参考手册

    GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册,今天他宣布了GNUC语言介绍和参考手册,以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念,但对C语言一无所知,你可以从头开始按顺序阅读本手册,也可以用来学习C语言...如果你是编程的初学者,建议你首先学习一种具有自动垃圾收集和无显式指针的语言,而不是从C语言开始,其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告:......

今日大家都在搜的词: