新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

2023-11-08 11:11 · 稿源：站长之家

划重点:
🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型（LLM）中的安全漏洞。
🤖 这个名为Prompt Automatic Iterative Refinement（PAIR）的算法可以识别“越狱”提示，防止其生成有害内容。
🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作，还能够以较少尝试生成越狱提示，且这些提示具有可解释性和可传递性。

站长之家(ChinaZ.com) 11月8日消息:一项最新研究揭示了一种新的方法，允许一个大型语言模型（LLM）被用于越狱另一个，以揭示潜在的安全漏洞。

来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement（PAIR）的算法，该算法能够自动停止LLMs中的安全漏洞，防止其生成有害内容。

机器人黑客

图源备注：图片由AI生成，图片授权服务商Midjourney

PAIR算法的独特之处在于它能够与黑盒模型（如ChatGPT）一起工作，而且它在生成越狱提示时所需的尝试次数较少，而且这些提示具有可解释性，可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。

在研究中，研究人员使用了一个名为Vicuna的开源LLM作为攻击模型，并测试了多个目标模型，包括开源模型和商业模型。

研究结果显示，PAIR成功越狱了GPT-3.5和GPT-4的60%的设置，甚至在一些情况下只需要几十个查询，平均运行时间约为五分钟。这明显改进了现有的越狱算法，后者通常需要数千个查询和平均150分钟的攻击时间。

此外，PAIR生成的攻击具有人类可解释性，可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质，这些提示针对语言模型中的类似漏洞，因为它们通常是在相似的下一个单词预测任务上训练的。

PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前，用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而，通过将提示过程转化为可度量和可评估的问题，开发人员可以创建算法，其中模型的输出被循环用于优化，这将加速LLM领域的发展，可能引领领域中的新的和未预见的进展。

（举报）

相关推荐

关键词：

LLM
越狱

货车拉13头猪有11头“越狱”：后车追了2公里才拦下

近日，在345国道河南上蔡至西平段发生了一起令人啼笑皆非的事件:一辆货车在运输13头猪的过程中，竟有11头猪成功“越狱”。据目击者及货车司机描述，当时货车车厢不慎被猪顶开，一头头生猪接连跳出车厢，在国道上狂奔。事发当天，这辆货车正行驶在345国道上，车厢里装载了13头猪。然而，在行驶过程中，车厢门突然被猪顶开，一头猪率先“越狱”，紧接着，其他猪也�

货车事故猪越狱交通安全
远东股份：ALL IN“电能+算力+AI”，智能驱动未来

远东股份（600869）凭借“电能+算力+AI”战略，在能源与算力融合领域形成先发优势。公司深耕特高压输电、新能源等关键技术，自主研发高导铝绞线提升输电效率，产品应用于多条国家级特高压线路。同时布局液冷技术研发，为数据中心提供高效散热方案。未来将持续推进“AI+能源”产业生态建设，助力制造业智能化升级和绿色高效算能模式构建。

人工智能能源算力
APOLLO年中展望：在滞胀的十字路口——下一步是什么？

美国关税政策调整引发经济波动。特朗普政府推行的新关税制度使平均关税率升至15.8%，为近90年来最高水平，加剧市场不确定性。经济学家预测经济增长放缓、通胀上升，利率将长期维持高位。企业投资计划波动加剧，消费者信心下滑，预计2025年美国GDP增长仅1.2%。尽管衰退概率上升至25%，但专家认为短期内不会出现全面衰退，供需双方均面临阻力。全球经济增长预期下调至2.6%，低于此前3%的预期。

美国关税经济增长市场波动
三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

9月12日，三星家电以“AI的呵护”为主题在北京京东MALL举办线下体验展，集中展示搭载AI技术的全线产品，包括冰箱、洗衣机、电视及手机等。重点展出了荣获IFA创新奖的AI神·黑钻热泵洗烘旗舰等产品，通过五大主题展区呈现科技与艺术融合的家电新形态。观众可现场体验食材管理、衣物护理等智能功能，感受AI技术带来的生活便利。展览将持续至9月17日，并提供互动礼品。

三星家电 AI科技线下体验展
荐淘宝直播请call赵露思

今年的暑假大戏，赵露思直播告一段落。截至目前，距离她上次公开直播已经过去了十余天，她的社交动态也基本停留在这一刻暂未更新。就在8月19日直播中，赵露思首次表态，表示“现在很愿意做网红”，这一宣言并非偶然，就在前一天，她注销了拥有3119万粉丝的微博账号，彻底切断传统明星的流量锚点。

赵露思直播网红
中国品牌四登苹果发布会！SmallRig亮相发布会助力iPhone 17 pro系列影像功能

SmallRig斯莫格于9月10日推出专为iPhone 17 Pro系列设计的专业拓展配件，与新品同步发售。该系列以全面化、模块化、专业化的拓展系统为核心，旨在释放iPhone影像潜能，提升手机影像创作体验。产品采用快拆式设计，支持快速切换组件，覆盖从日常拍摄到专业创作的多样化需求。该品牌曾多次亮相苹果全球发布会，产品获官方认可，在全球用户中具有较高认可度。

iPhone17Pro SmallRig斯莫格专业拓展配件
深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

香港浸会大学的研究团队通过深度催眠的方法，提出了一种新颖的大语言模型越狱攻击——DeepInception。该研究从心理学视角出发，揭示了LLM在应对人类指令时可能失去自我防御的特性。通过心理学视角的独特探索，DeepInception为理解和防范LLM越狱提供了有益的启示。

LLM
华人风投登上《时代》VC榜单：Foothill入选全美顶尖VC，前沿科技投资力量凸显

Statista与《时代》杂志联合发布“美国顶尖350家风投机构”榜单，从全美逾万家机构中筛选出前3.5%，涵盖募资能力、投资管理能力、基金回报等关键指标。榜单呈现A16z、Greylock等老牌基金，同时凸显Foothill Ventures等新兴力量，反映美国风投格局日益多元化，包括移民、女性及学者创业等新趋势。

风险投资 A16z Greylock
国内首款模块化四足机器人-Apollo 从“白犀”吉尼斯纪录走来，引领行业进入“定制化时代”

国内首款模块化工业级四足机器人Apollo正式亮相。该机器人由浙江大学杭州国际科创中心研发，延续了前代“白犀”的速度优势，以模块化设计为核心突破，实现性能、场景适配与运维效率的全面革新。Apollo具备140kg负载能力、5.5小时续航，支持快速换电与多场景灵活定制，适用于高危险厂区巡检、应急救援等工业应用，推动四足机器人向定制化解决方案跨越。

模块化工业机器人四足机器人工业级机器人
全链路布局+硬核技术突破，HOLLYLAND猛玛为500万创作者打造专业级创作体验

HOLLYLAND猛玛在内容创作行业爆发式增长背景下，专注解决创作者痛点，通过自主研发无线传输、音频处理与成像算法等技术，构建覆盖音视频采集、信号传输到成品输出的全流程生态。其产品包括极影Ultra无线图传系统、微影APP图传、专业通话系统等，实现从高端专业到消费级产品的全面布局，显著提升创作效率，降低门槛，助力全球创作者。

内容创作设备协同工作流割裂

今日大家都在搜的词：

热文

3 天
7天

新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

货车拉13头猪有11头“越狱”：后车追了2公里才拦下

远东股份：ALL IN“电能+算力+AI”，智能驱动未来

APOLLO年中展望：在滞胀的十字路口——下一步是什么？

三星全线产品亮相北京京东MALL 全场景呈现有AI的科技·艺术·家

荐淘宝直播请call赵露思

中国品牌四登苹果发布会！SmallRig亮相发布会助力iPhone 17 pro系列影像功能

深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

华人风投登上《时代》VC榜单：Foothill入选全美顶尖VC，前沿科技投资力量凸显

国内首款模块化四足机器人-Apollo 从“白犀”吉尼斯纪录走来，引领行业进入“定制化时代”

全链路布局+硬核技术突破，HOLLYLAND猛玛为500万创作者打造专业级创作体验

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

iPhone17遭首批用户吐槽客服回应：建议新机带壳

realme真我GT8系列官宣10月发布

转转宣布逐步关停自由市场全面聚焦“官方验”模式

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

苹果 iPhone 17/Pro 系列今日发售多维度升级

全新问界M7小订破22万：将于明晚上市公布价格

京东：iPhone 17开卖4小时全国超3万人签收

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

小米平板8 Pro官宣搭载骁龙8至尊版处理器

站长商机