研究人员诱导AI聊天机器人泄露有害内容，成功率高达 98%

2023-12-12 09:25 · 稿源：站长之家

划重点:
- 研究人员设计了一种方法，成功引导大型语言模型回答有害问题，揭示了隐藏在合规回答中的有害内容。
- 这种方法使用概率数据和软标签来诱导模型生成有害内容，成功率高达98%。
- 研究人员警告人工智能社区应慎重开源语言模型，并提出清除有害内容是更好的解决方案。

站长之家（ChinaZ.com）12月12日消息:印第安纳州普渡大学的研究人员设计了一种新的方法，成功地诱导大型语言模型（LLM）生成有害内容，揭示了隐藏在合规回答中的潜在危害。在与聊天机器人进行对话时，研究人员发现通过利用模型制作者公开的概率数据和软标签，可以迫使模型生成有害内容，成功率高达98%。

脑机接口 AI机器人

图源备注:图片由AI生成，图片授权服务商Midjourney

传统的越狱方法通常需要提供提示来绕过安全功能，而这种新方法使用概率数据和软标签来强制模型生成有害内容，无需复杂的提示。研究人员称其为 LINT（LLM 询问的缩写），它通过向模型提出有害问题并排名响应中的前几个标记，进而诱导模型生成有害内容。

在实验中，研究人员使用包含50个有毒问题的数据集测试了7个开源 LLM 和3个商业 LLM。结果显示，当模型被询问一次时，成功率达到92%;当模型被询问五次时，成功率更高，达到98%。相比其他越狱技术，这一方法的性能明显优越，甚至适用于根据特定任务定制的模型。

研究人员还警告人工智能社区在开源 LLM 时应谨慎，因为现有的开源模型很容易受到这种强制审讯的攻击。他们建议最好的解决方案是确保清除有害内容，而不是将其隐藏在模型中。这项研究的结果提醒我们，保障人工智能技术的安全性和可信度仍然是一个重要的挑战。

（举报）

相关推荐

关键词：

微信推出“后悔药”：新功能上线“删除聊天可撤销”

近日，微信团队针对安卓用户推出了8.0.63内测版本，其中一项新增功能——“删除联系人同时清除聊天记录”的选项备受关注，不过更引人注目的是其带来的“删除聊天可撤销”的便利，这一改动被网友们誉为“救了手滑党的命”。

微信功能更新安卓微信内测聊天记录管理
企业选择雇佣AI员工，都有哪些优势价值？尘锋AI员工在哪些工作上表现优秀？

AI在业务环境中的应用本质上是效率革命，能替代重复性工作，释放人力从事更高价值任务。AI员工可提升业务效率、降低用工成本、赋能人类创新，并需具备技术专业性、高开放性和数据安全性。选择AI员工应关注其业务理解能力、系统集成性及合规性，经过实践验证的AI方案能有效推动企业数字化转型，创造增长优势。

AI应用效率革命业务效率
AI闯入文娱：创作者的“荒蛮故事”

在世界电影史中，每一股颠覆性的力量都被冠以“浪潮”之名，描摹着时代审美与表达范式的剧烈变迁。如今，AI技术正冲击着这个产业的每一个角落，速度之快、程度之深，超乎想象。最直观的体现，是文娱企业业绩的结构性变化，尤其体现在广告业务和内容制作上。 B站财报显示，二季度广告业务同比增长20%，已有30%的广告封面由AIGC工具生成;爱奇艺CEO龚宇在最新的财报�

AI技术电影产业广告业务
淘宝悄悄上线了AI导购，懒人购物原来可以这么爽。

这场战，真的打起来了。最近这些超级APP，真的快卷疯了。我发现淘宝，也上了一个非常有趣的新的AI功能。故事是这样的。我最近因为搬了新家，买东西是格外的多。然后，我就在昨天买家里用品的时候，看到了一个淘宝的全新的AI功能，这玩意之前绝对是没有出现过的。而且给的权重非常的高，所有的商品列表页都能看到。。。这玩意叫淘宝AI助手，在商品列表

淘宝AI助手 AI导购商品列表页
荐小米和阿里下场，正在改变AI百镜大战的局面

AI眼镜正从极客玩具发展为AI大模型落地的重要载体。2024年上半年，市场发布超10款新品，包括雷鸟、雷神等创业品牌及华为、创维等大厂产品。全球出货量激增，预计2025年中国市场将达290.7万台，同比增长121.1%。小米、阿里等巨头入局推动竞争升级，但行业仍面临芯片成本高、续航短、生态不足等挑战。未来大厂凭借供应链和生态优势或主导市场，而创业公司需在细分场景寻�

AI眼镜智能眼镜 AI大模型
腾讯会议宣布上AI托管功能：AI帮你参会帮写完整会议纪要

腾讯会议联合元宝推出AI托管功能，可提前或会中一键开启，由AI代为参会并实时记录内容，生成智能纪要。用户可随时切换会议状态，离场时AI持续记录，会后提供完整摘要，支持浏览会议小结或详细内容，还可一键导出至元宝拓展发问。该功能旨在解决突发状况，确保不错过重要信息。

腾讯会议 AI托管元宝
微信聊天能发live图了客服回应：会逐步放大内测范围

今日，微信安卓平台正式推出8.0.63内测版本更新，新增聊天发送Live Photo实况照片功能，并已完成对小米、OPPO、vivo、荣耀等主流品牌机型的适配。用户现可在图片发送界面通过开启实况开关，向好友分享包含动态画面与声音的生动瞬间，为社交互动增添沉浸式氛围。

微信更新 Live Photo
非洲女孩被AI识别出黑眼圈网友：AI一视同仁

9月10日，在上海外滩大会的热闹现场，一场关于AI测肤质的体验活动吸引了众多目光。其中，一位黑人女孩的体验过程尤为引人注目，她在使用AI测肤质功能后，竟被提示存在黑眼圈问题，需关注眼部皮肤状态及保养，这一结果瞬间引发了现场围观和网友热议。据现场工作人员介绍，该AI测肤质功能通过先进的技术分析皮肤状况，不受肤色影响。当黑人女孩完成测试后，AI系�

AI测肤质黑人女孩黑眼圈
荐AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

本文介绍了AI领域的最新动态：MiniMax推出Music 1.5模型，支持4分钟高质量音乐生成；腾讯会议AI托管功能提供会议分身服务；蚂蚁集团发布AI眼镜连接框架gPass；Anthropic为Claude新增自动记忆聊天功能；苹果AI功能在欧盟受限；AI首次担任职业球队教练获胜；谷歌推出离线AI应用Edge Gallery；企业应用AI成熟度模型发布；Claude新增网页与PDF抓取功能；FTC启动对AI聊天机器人安全性的调查。

AI音乐 MiniMax 音乐生成
GEO技术与价值白皮书：抢占AI流量，构建品牌“AI可见性”

喜签智能研究中心发布《生成式引擎优化(GEO)白皮书》，系统阐述AI时代内容优化新范式。白皮书指出，用户行为正从主动搜索转向AI问答，GEO通过提升内容在AI结果中的可见性、准确性与影响力，成为企业构建“AI可见性”的核心战略。报告详细对比GEO与传统SEO差异，提出企业应从内容审计、优化、监测三方面构建GEO能力，抢占AI流量红利。

文章搜索核心标签信息检索

今日大家都在搜的词：

热文

3 天
7天

研究人员诱导AI聊天机器人泄露有害内容，成功率高达 98%

微信推出“后悔药”：新功能上线“删除聊天可撤销”

企业选择雇佣AI员工，都有哪些优势价值？尘锋AI员工在哪些工作上表现优秀？

AI闯入文娱：创作者的“荒蛮故事”

淘宝悄悄上线了AI导购，懒人购物原来可以这么爽。

荐小米和阿里下场，正在改变AI百镜大战的局面

腾讯会议宣布上AI托管功能：AI帮你参会帮写完整会议纪要

微信聊天能发live图了客服回应：会逐步放大内测范围

非洲女孩被AI识别出黑眼圈网友：AI一视同仁

荐AI日报：MiniMax Music 1.5上线；腾讯会议上线AI托管；蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

GEO技术与价值白皮书：抢占AI流量，构建品牌“AI可见性”

今日大家都在搜的词：

热文

上市没几天iPhone 17已跌破发售价部分机型降幅高达千元

魅族22今日发布：小屏影像旗舰、行业唯一白面板

华为穿戴音频新品发布会定档9月24日：WATCH GT6等将发布

小米17官宣本月发布卢伟冰称有信心直面iPhone17

尚界H5小订突破10万台预售16.98万起

库克称最爱橙色新iPhone：17 Pro是迄今最先进iPhone

华为MatePad mini今日首销：3299元起

苹果推出手机斜挎挂绳售价479元：10种配色可选

罗永浩悬赏10万征集西贝预制菜线索还送iPhone17

iPhone首现2TB内存！iPhone17系列价格公布

苹果iPhone 17系列京东预约人数超400万：标准版最受欢迎

天猫首发iPhone 17：支持24期免息淘宝闪购最快30分钟到手

AI日报：快手推出AI视频制作助手Kwali；字节跳动推出USO模型；

影视飓风连续4年给员工换新iPhone 全员可得iPhone 17 Pro Max

AI日报：腾讯开源图像模型HunyuanImage2.1；爱诗科技获6000万

站长商机