首页 > 业界 > 关键词  > LLM最新资讯  > 正文

新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

2023-11-08 11:11 · 稿源:站长之家

划重点:

🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型(LLM)中的安全漏洞。

🤖 这个名为Prompt Automatic Iterative Refinement(PAIR)的算法可以识别“越狱”提示,防止其生成有害内容。

🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作,还能够以较少尝试生成越狱提示,且这些提示具有可解释性和可传递性。

站长之家(ChinaZ.com) 11月8日 消息:一项最新研究揭示了一种新的方法,允许一个大型语言模型(LLM)被用于越狱另一个,以揭示潜在的安全漏洞。

来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement(PAIR)的算法,该算法能够自动停止LLMs中的安全漏洞,防止其生成有害内容。

机器人黑客

图源备注:图片由AI生成,图片授权服务商Midjourney

PAIR算法的独特之处在于它能够与黑盒模型(如ChatGPT)一起工作,而且它在生成越狱提示时所需的尝试次数较少,而且这些提示具有可解释性,可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。

在研究中,研究人员使用了一个名为Vicuna的开源LLM作为攻击模型,并测试了多个目标模型,包括开源模型和商业模型。

研究结果显示,PAIR成功越狱了GPT-3.5和GPT-4的60%的设置,甚至在一些情况下只需要几十个查询,平均运行时间约为五分钟。这明显改进了现有的越狱算法,后者通常需要数千个查询和平均150分钟的攻击时间。

此外,PAIR生成的攻击具有人类可解释性,可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质,这些提示针对语言模型中的类似漏洞,因为它们通常是在相似的下一个单词预测任务上训练的。

PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前,用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而,通过将提示过程转化为可度量和可评估的问题,开发人员可以创建算法,其中模型的输出被循环用于优化,这将加速LLM领域的发展,可能引领领域中的新的和未预见的进展。

举报

  • 相关推荐
  • 张艺兴×全红婵集体打call!最嗨音乐班凭啥让明星排队合拍?

    ​最近,抖音上一个“音乐班”的视频突然爆火,原因无他——张艺兴和全红婵竟然同框打call了! 一个是国民级偶像,一个是奥运跳水冠军,看似毫无交集的两人,却在和同一个短视频合拍,为这段节奏感炸裂的音乐班表演疯狂喊麦。

  • Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

    2025年11月11日,舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计,提供一站式高品质音频服务,集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证,无缝接入MTR生态系统,支持端到端加密通信,确保会议安全。用户可远程管理系统,降低运维成本。舒尔与微软合作,共同提升企业协作效率,首批体验用户反馈语音清晰流畅,显著优化沟通质量。

  • 活字格通过信通院智能体专项测试,以All-in-One能力加速企业AI落地

    葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试,成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构,覆盖数据管理、模型接入、插件开发等八大能力域,具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平,可为企业提供低门槛智能体落地解决方案,已在制造、政务、医疗等领域深度应用,助力企业数字化转型。

  • 深度催眠引发的LLM越狱:香港浸会大学揭示大语言模型安全漏洞

    香港浸会大学的研究团队通过深度催眠的方法,提出了一种新颖的大语言模型越狱攻击——DeepInception。该研究从心理学视角出发,揭示了LLM在应对人类指令时可能失去自我防御的特性。通过心理学视角的独特探索,DeepInception为理解和防范LLM越狱提供了有益的启示。

  • AI日报:Google Skills平台向公众免费开放内部AI知识;LiblibAI 完成1.3亿美元融资;Sora更新推出“角色客串”功能

    本期AI日报聚焦视频生成领域重大进展:昆仑万维SkyReels将于11月上线新版AI视频工具;LiblibAI完成1.3亿美元融资;阿里推出夸克对话助手;豆包视频模型Seedance1.0pro实现首尾帧一致性突破;Vidu Q2全面开放API;Sora新增角色客串功能并即将推出安卓版;MiniMax海螺2.3在真实感方面超越Veo;谷歌推出免费AI学习平台"Google Skills";字节跳动Seed团队发布3D生成模型Seed3D1.0,支持单图生成高质量3D资产。

  • 研究发现针对ChatGPT、Bard 等LLM的自动越狱攻击

    研究人员发现,可以自动构建对抗性攻击,欺骗ChatGPT、Bard和Claude等主要语言模型,以提供非预期且可能有害的内容传统的越狱需要大量手动开发,通常可以由LLM供应商解决。这些自动化攻击可以大量创建,并且可以在闭源和公开的聊天机器人上运行。随着社会对人工智能技术的依赖越来越大,我们应该考虑这些问题。

  • Ballmer:微软不会给苹果留任何余地

    冰冻三尺非一日之寒,微软与苹果之间的恩怨要追溯到上世纪90年代PC与Mac的激烈对阵,而两家的竞争直至现在也从未停止过。微软现任CEO Steve Ballmer也已经向软件商们许诺,微软将与苹果斗争到底。 在本周微软全球合作者大会上,Ballmer称:“微软的目标很明确 — 不给苹果留下任何余地。”目前,微软即将发布的新产品有Windows Phone 8、Windows 8以及新一代Xbox。Ballmer则表示:

  • 菲洛嘉医学科学升级,菲欧曼FILLMED让你逆转时光,定格青春

    在岁月面前,我们总是感叹自己的无能为力,因为每个人都要经历身体从充满力量到步履蹒跚,肌肤从光滑水嫩到布满皱纹,因此延缓衰老、永驻青春,成为了女人们永恒的梦想,这份遐想从人参果、不老丹等历史传说中就充分体现出来了。对此,为了守护广大爱美人士的肌肤状态,让每个人相遇最好状态的自己, 1978 年由法国医学美容专家、细胞生物学家Dr。 Michel Tordjman 创建了菲洛嘉实验室。 自创立以来,菲洛嘉医学便始终致力于抗衰老

  • Richard Stallman发布GNU C语言参考手册

    GNU创始人RichardStallman最近一直致力于精心编写GNUC语言介绍和参考手册,今天他宣布了GNUC语言介绍和参考手册,以涵盖GNU对C编程语言的扩展...如果你了解编程的基本概念,但对C语言一无所知,你可以从头开始按顺序阅读本手册,也可以用来学习C语言...如果你是编程的初学者,建议你首先学习一种具有自动垃圾收集和无显式指针的语言,而不是从C语言开始,其中一些好的选择包括Lisp、Scheme、Python和Java...有兴趣的计算机爱好者可以先阅读Stallman的公告:......

  • 安生乔恩整形医师余斌为FILLMED交流会带来三节大师课

    余斌作为FILLMED艺术填充臻选注射医师、美国舒铂面部假体指定临床手术专家、诺鼻尔美鼻整形大赛金奖获得者, 在为期 3 天的学术盛宴中,先后带来了关于艺术填充、鼻整形、面部假体手术三节大师课,受到现场嘉宾的们的一致好评...2019 年,以色列医疗整形发展组织对余斌的技术能力和成果案例给予高度评价,特邀余斌医生成为以色列整形美容推广大使,希望共同推动整形美容在中国乃至世界的发展......

今日大家都在搜的词: