使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

2023-12-06 11:37 · 稿源：站长之家

站长之家(ChinaZ.com) 12 月 6 日消息:上个月，OpenAI 董事会突然解雇了该公司的首席执行官，这引发了人们的猜测：董事会成员对人工智能突飞猛进的发展速度以及过快寻求技术商业化可能带来的风险感到震惊。

OpenAI ChatGPT，人工智能，AI

Robust Intelligence 是一家成立于 2020 年的初创公司，与耶鲁大学的研究者合作，开发了一种探测大型语言模型（LLMs）的系统性方法，包括 OpenAI 的 GPT-4。这种方法使用「对抗性」AI 模型发现能使语言模型行为异常的「越狱」提示。

在 OpenAI 董事会突然解雇公司首席执行官的背景下，Robust Intelligence 的研究工作引发了人们对 AI 技术进展速度及其商业化风险的关注。该公司警告称，一些现有的风险需要更多的关注。

尽管研究人员已向 OpenAI 发出了漏洞警告，但他们表示尚未收到回应。

哈佛大学计算机科学教授兼 Robust Intelligence 首席执行官 Yaron Singer 表示：「我们的发现表明，存在一种系统性的安全问题，目前这些问题尚未得到解决和关注。」

OpenAI 的发言人 Niko Felix 表示，公司对研究者分享他们的发现表示「感激」。Felix 说：「我们一直在努力使我们的模型在抵御对抗性攻击的同时保持其实用性和性能，使其更加安全和强大。」

新的越狱方法涉及使用额外的人工智能系统来生成和评估提示，系统试图通过向 API 发送请求来实现越狱。这只是一系列攻击中的最新一招，这些攻击似乎凸显了大型语言模型的根本弱点，并表明现有的保护这些模型的方法远远不够。

卡内基梅隆大学（Carnegie Mellon University）教授 Zico Kolter 说：「我非常担心，我们似乎很容易就能攻破这类模型，」他的研究小组在今年 8 月展示了大型语言模型中的漏洞。

Kolter 说，现在有些模型已经有了可以阻止某些攻击的防护措施，但他补充说，这些漏洞是这些模型工作方式的固有缺陷，因此很难防御。 Kolter说：「我认为，我们需要明白，这些漏洞是许多 LLM 固有的，」他说：「我们没有明确而行之有效的方法来防止它们。」

大型语言模型是最近出现的一种强大的、变革性的新型技术。一年前，OpenAI 的 ChatGPT 发布，其功能令普通人眼花缭乱，大型语言模型的潜力成为头条新闻。

在 ChatGPT 发布后的几个月里，发现新的越狱方法成了调皮用户以及对人工智能系统的安全性和可靠性感兴趣的人的热门消遣。但是，现在有几十家初创公司正在大型语言模型 API 的基础上构建原型和成熟的产品。OpenAI 在 11 月举行的首次开发者大会上表示，目前已有 200 多万开发者在使用其 API。

这些模型只是预测给定输入后应该出现的文本，但它们是在大量文本的基础上训练出来的，这些文本来自网络和其他数字资源，使用大量计算机芯片驱动，历时数周甚至数月。只要有足够的数据和训练，语言模型就能表现出超凡的预测能力，对各种输入做出反应，并提供连贯、贴切的信息。

这些模型也会表现出从训练数据中学到的偏差，当提示的答案不太直接时，它们往往会编造信息。如果没有保障措施，它们就会向人们提供如何获取毒品或制造炸弹等建议。为了对模型进行控制，这些模型背后的公司采用了同样的方法，使它们的回答看起来更连贯、更准确。这包括让人类对模型的回答进行评分，并利用反馈意见对模型进行微调，使其不易发生错误行为。

Robust Intelligence 提供了几个越狱示例，展示了如何绕过现有的安全措施。这些越狱不一定都能在 GPT-4 上运行的 ChatGPT 聊天机器人上工作，但其中一些，如生成网络钓鱼信息和为恶意行为者提供在政府计算机网络上隐藏的方法，是有效的。

纽约大学计算机安全和机器学习研究的副教授 Brendan Dolan-Gavitt 表示，Robust Intelligence 揭示的新技术表明，通过人类微调来确保模型安全并非万无一失。

Dolan-Gavitt 说，正在基于 GPT-4 等大型语言模型构建系统的公司应该采取额外的安全措施。他说：「我们需要确保设计使用 LLMs 的系统时，越狱不能让恶意用户访问他们不应该访问的内容。」

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
苹果AI放大招！声称其设备端模型性能优于GPT-4

在最近的一篇论文中，苹果的研究团队宣称，他们提出了一个可以在设备端运行的模型ReALM，这个模型在某些方面可以超过GPT-4。ReALM的参数量分别为80M、250M、1B和3B，体积都非常小，适合在手机、平板电脑等设备端运行。这项研究有望用来改进苹果设备上的Siri助手，帮助Siri更好地理解和处理用户询问中的上下文。

苹果 ReALM AI
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

OpenAI最新推出的更新版GPT-4Turbo上周已经面向开发人员和付费ChatGPT订阅者提供。当推出这一模型时，OpenAI表示新的GPT-4Turbo从前作中进行了多项改进用户们也发现这一点确实如此。如果您想要跳过测试，直接使用gpt-4-turbo-2024-04-09在ChatGPT中，需要成为ChatGPTPlus订阅者，费用为每月20美元。

GPT-4 Claude3 AI头条
全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

商汤科技在中国北京举行新品发布会，正式发布人工智能大模型日日新5.0”。日日新5.0大模型采用了先进的MOE混合专家架构，这一架构的引入，使得模型在处理复杂任务时能够表现出更高的效率和准确性。这一功能在智能客服、智能写作、智能设计等领域具有广泛的应用前景。
对标GPT-4！中国移动九天大模型通过双备案

日前，国家网信办公布已备案大模型清单，中国移动九天自然语言交互大模型”名列其中，标志着中国移动九天AI大模型可正式对外提供生成式人工智能服务。中国移动表示，这是同时通过国家生成式人工智能服务备案”和境内深度合成服务算法备案”双备案的首个央企研发的大模型。据介绍，九天自然语言交互大模型具有行业能力增强、安全可信、支持全栈国产化等特点，已

大模型清单中国移动九天生成式人工智能服务
谷歌推出”自我发现“框架，极大增强GPT-4等大模型推理能力

随着ChatGPT的出现，大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面，面临内容不准确、安全等难题。每次只需要一个查询获得相似性能的集成方法需要40倍的查询量，也就是说可以节省很多算力资源。

GPT-4
OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

AI公司在获取高质量训练数据方面遇到的挑战，OpenAI为了训练其最先进的大型语言模型GPT-4，使用了超过一百万小时的YouTube视频副本。该公司通过其Whisper音频转录模型转录这些视频，尽管这一做法在法律上具有争议性，OpenAI仍认为这属于合理使用。AI领域正面临训练数据短缺的挑战解决方案尚未明朗，公司们需要权衡利弊并寻求合理途径应对这一问题。

OpenAI GPT-4 YouTube
商汤发布日日新5.0大模型综合能力全面对标GPT-4

4月23日下午，商汤科技发布了一项重磅更新——全新升级的日日新SenseNova5.0大模型。这款大模型采用了先进的MOE混合专家架构，经过超过10TBtokens的训练，其推理上下文窗口达到了惊人的200K，展现出了与GPT-4Turbo全面对标的能力。此次日日新SenseNova5.0大模型的发布，无疑将进一步推动商汤科技在人工智能领域的发展，同时也为整个产业带来了更多的可能性与机遇。

今日大家都在搜的词：

热文

3 天
7天

使用 AI 越狱 AI 模型：新方法可系统地探测 GPT-4 等大型语言模型的弱点，从而使其行为异常

今日大家都在搜的词：

热文

站长商机