CipherChat：一个评估 LLM 安全对齐泛化能力的框架

2023-08-19 10:49 · 稿源：站长之家

站长之家（ChinaZ.com）8月19日消息:CipherChat 是一个AI 框架，旨在系统地研究将安全对齐方法应用于非自然语言（具体来说是密码）的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示，使人类与 LLM(Large Language Models)进行交互，全面检查 LLM 对密码的理解、参与对话的能力以及对不恰当内容的敏感度。

项目地址:https://github.com/RobustNLP/CipherChat

研究强调了在处理非自然语言（如密码）时创建安全对齐方法的重要性，以确保与基础 LLM 的能力相匹配。

通过对 ChatGPT 和 GPT-4等现代 LLM 进行多个实验，研究发现一些密码能够成功规避 GPT-4的安全对齐程序，在某些安全领域几乎达到100% 的成功率。

研究还揭示了 LLM 中存在秘密密码的现象，研究团队推测 LLM 可能具有解密特定编码输入的潜在能力，从而暗示了一种独特的与密码相关的能力存在。基于这一观察，研究引入了一个名为 SelfCipher 的框架，通过角色扮演场景和少量自然语言演示来激活 LLM 内部的秘密密码能力。SelfCipher 的有效性展示了利用这些隐藏能力来提高 LLM 解密编码输入和生成有意义响应的潜力。

产品特点:

1. CipherChat 是一个用于评估 LLM（语言模型）的安全对齐泛化能力的框架。

2. 该框架可以系统地检查安全对齐在非自然语言（如密码）上的普适性。

3. 提供了一个示例运行命令和参数说明。

4. 通过使用密码将输入转换为对 LLM 的安全对齐不太可能覆盖的格式，实现了对安全对齐的规避。

5. 使用基于规则的解密器将 LLM 的输出从密码格式转换为自然语言形式。

6. 提供了实验结果和案例研究，以及消融研究和其他模型的讨论。

7. 可以在论文中找到更多详细信息，并提供了引用。

请注意:本产品仅供研究使用，严禁滥用。

（举报）

相关推荐

关键词：

CipherChat

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站，重构数据全链路，打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构，实现本地流畅运行GPT-oss-120B等大型模型，保障数据安全的同时显著提升分析效率。该方案以财务场景为例，支持多任务并行处理，将原本需1天完成的月度报表压缩至2小时，解决“数据不外发”与“高效处理”的核心矛盾。

文章搜索核心标签 AMD锐龙AI
让搜索“一步到位”！快手提出端到端生成式搜索方案OneSearch

当前电商平台普遍采用“召回、粗排、精排”级联式搜索架构，但存在商品描述混乱、相关性差、冷启动难等痛点。快手提出业界首个工业级端到端生成式搜索框架OneSearch，集成三大创新模块：关键词增强量化编码（KHQE）提升商品特征建模能力，多视角用户行为序列注入策略实现精准偏好捕捉，偏好感知奖励系统（PARS）优化排序多样性。实际部署后，订单量提升3.22%，买家数增长2.4%，在线推理成本降低75.4%，冷启动场景表现尤为突出。该系统标志着生成式模型在大规模工业场景中首次完整替代传统搜索链路，为电商搜索技术发展指明方向。

电商平台搜索架构 OneSearch
OPPO Watch S官宣：轻薄表皇

OPPO宣布将于10月16日推出OPPO Watch S智能手表，主打“轻薄表皇”设计，厚度不足9mm，号称目前市面上最薄的智能圆表。搭载全新智能手表系统，操作体验媲美手机，健康配置亦有惊喜。同时具备“健身教练”功能，可自动识别运动并提供超100种运动模式，专业记录数据。此外，发布会还将推出OPPO Find X9和X9 Pro旗舰手机，首批搭载联发科天玑9500平台，出厂预装全新ColorOS 16系统。

OPPO Watch S
理想汽车CEO李想谈iPhone 17：不会买Pro Max 实在太丑了

理想汽车CEO李想9月23日发布视频，谈及苹果最新iPhone 17系列。他最喜欢iPhone Air，认为其轻薄设计回归手机便携本质，类似经典iPhone X。过去五年他每年购买iPhone Pro Max，但今年因外观太丑不再选择。李想分析，iPhone 17标准版将是销量主力，而Pro系列定位更清晰，专注高端摄影设备市场，更像专业影像手机。iPhone 17 Pro外观大改，背部采用玻璃+铝合金拼接工艺，抗摔性提升4倍且更薄，四周为航空级铝合金机身，散热优于前代钛金属材质。

理想汽车 iPhone 17
续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

续科天下发布XUKE TECH完整AI数据处理系统，推出Base、Embed、Vault三款核心产品，解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据，通过向量化转换和安全存储管理，形成端到端解决方案，帮助企业将70%的数据预处理精力转向模型开发，显著缩短AI项目上线周期，已在金融、互联网等领域验证实效。

AI数据预处理非结构化数据处理智能数据基础设施
iPhone Air快来了！联通开启eSIM预约

中国联通App已开启eSIM预约，iPhone Air将成苹果首款完全依赖eSIM的国行机型，不再配备物理SIM卡槽。该机预计10月通过运营商合约销售，三大运营商均将提供eSIM支持，具体时间待监管部门审批。iPhone Air厚度仅5.6mm、重165g，采用航空级铝合金框架与超瓷晶玻璃，配备6.5英寸120Hz自适应刷新率OLED屏，峰值亮度达2000nit。

eSIM iPhone Air
华为WATCH GT 6/Pro系列手表发布售价1488元起

华为于9月24日正式发布WATCH GT6系列智能手表，起售价1488元。该系列提供41mm和46mm两种尺寸，搭载OLED屏幕，续航最长可达21天，支持5ATM防水和IP69防尘。GT6 Pro新增跌倒检测、ECG心电图分析及专业运动模式，并配备蓝宝石玻璃表镜。全系采用高硅叠片电池技术，能量密度提升37%，支持无线快充。此外，首次应用骑行模拟功率功能，并搭载TruSense技术，精准监测心率、血氧等健康指标。GT6 Pro起售价2488元，进一步满足专业用户需求。

华为WATCH GT6 智能手表

今日大家都在搜的词：

热文

3 天
7天

CipherChat：一个评估 LLM 安全对齐泛化能力的框架

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

让搜索“一步到位”！快手提出端到端生成式搜索方案OneSearch

OPPO Watch S官宣：轻薄表皇

理想汽车CEO李想谈iPhone 17：不会买Pro Max 实在太丑了

续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

iPhone Air快来了！联通开启eSIM预约

华为WATCH GT 6/Pro系列手表发布售价1488元起

今日大家都在搜的词：

热文

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

马斯克个人财富达5000亿美元特斯拉市值飙升助力

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

京东双11购物节官宣：10月9日晚8点开启

站长商机