首页 > 业界 > 关键词  > LLM最新资讯  > 正文

深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞

2023-11-22 11:51 · 稿源:站长之家

要点:

  • 大语言模型(LLM)在各应用中成功,但容易受到Prompt诱导越过安全防护,即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception,通过深度催眠LLM使其越狱,并规避内置安全防护。

  • 利用LLM的人格化特性构建新型指令Prompt,通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法,揭示多个LLM的致命弱点。

  • 呼吁加强对LLM自我越狱的关注,通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。

站长之家(ChinaZ.com)11月22日 消息:近期,香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型(LLM)越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。

尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt,但这在黑盒模型中并不实用。在这种情况下,LLM往往受到道德和法律约束,直接的有害指令容易被模型检测并拒绝。

image.png

项目地址:https://deepinception.github.io/

为了克服这一问题,研究团队提出了DeepInception,通过嵌套场景的指令Prompt,利用LLM的人格化特性催眠模型,使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作,而且实现了可持续的越狱效果,无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。

研究团队在实验证明了DeepInception的有效性的基础上,呼吁更多人关注LLM的安全问题,并强调加强对自我越狱的防御。

研究的三个主要贡献:

  • 基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;

  • 提供了DeepInception的Prompt模板,可用于不同攻击目的;

  • 实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。

这项研究引发对LLM安全性的新关注,强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • 蔚来世界模型NWM将于5月30日全量推送

    智能泊车方面,蔚来世界模型NWM展现出了显著优势。它具备360超视距车位识别能力,无需车辆处于特定起点位置,用户可在任意位置、任意挡位下发起泊车指令。这一特性极大地提高了泊车的便捷性和灵活性,让用户不再受传统泊车方式的限制。在泊车过程中,NWM能够实时规划泊车轨迹,确保车辆准确、高效地停入车位。同时,它还支持借用通道实现长距离漫游泊车,即使面�

  • 猛玛全国10城新品交流落幕,北京站深度对话创作者

    猛玛在北京举办"猛友尊享沙龙"活动,围绕新品无线监听麦克风LARK MAX2展开深度交流。60位来自摄影、短视频等领域的资深用户与产品团队探讨使用体验,共同优化产品功能。活动凸显猛玛"从用户场景出发"的设计理念:LARK MAX2采用全链路无线监听技术,实现25ms超低延迟;AI降噪系统支持20档无极调节,精准适配不同创作环境。通过全国10城巡回活动,品牌累计收集数百位创作者反馈,将持续迭代产品。同期亮相China P&E展会,进一步扩大在专业影像领域的影响力。猛玛表示将持续倾听用户需求,用技术创新助力内容创作。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 隐藏的AI指令揭示了 Anthropic 是如何控制 Claude 4 的

    威利森指出,这些系统提示就像是“模型曾经做过、但现在被禁止做的事件清单”……

  • 新型比特币数字货币预测模型:微云全息基于卷积神经网络和堆叠门控递归单元的加密货币预测模型

    文章概述了加密货币市场自2009年比特币问世以来的快速发展,指出区块链技术的成熟推动了更多加密货币涌现,吸引了大量投资者关注。市场总市值不断增长,但高度波动性也增加了投资难度。微云全息公司开发了基于CNN和GRU混合方法的创新预测模型,通过卷积神经网络提取特征,门控循环单元捕捉长期依赖关系,能更准确预测加密货币价格走势。实验表明该模型优于现有方法,可应用于交易策略优化和风险管理,为投资者提供可靠决策支持。

  • 一句话搞定金融复杂工作,容联云大模型知识助理全新升级!

    容联云大模型知识助手全新升级,聚焦"更高效率、更懂金融、更好体验",推出实时语音问答与语音检索两大核心功能。升级亮点包括:1)秒级响应的实时语音问答,支持复杂金融政策解读和理财产品对比分析;2)语义穿透的实时语音检索,可精准定位海量金融文档关键信息,检索效率提升40%;3)深耕金融领域知识,深入理解业务逻辑,提供专业可靠支持;4)支持多音色切换,满足个性化需求。该助手已应用于内部管理、统数运营、营销增长和客户服务四大场景,显著提升业务效率,如客户咨询转化率提升30%、业务办理效率提升60%。

  • 从话术破解到智能拦截:小赢卡贷构建反诈模型筑牢征信安全防线

    文章揭露了数字化金融时代"虚假征信"诈骗的新套路,指出这类诈骗通常呈现"身份伪装-心理操控-资金转移"的标准化攻击链条。小赢卡贷安全实验室将其拆解为三大核心环节:1)通过黑灰产非法获取用户信息并伪造身份;2)制造恐慌诱导下载远程控制软件;3)要求转账至"安全账户"并销毁证据。平台建议用户牢记"四不两要"原则:不泄露敏感信息