11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
随着ChatGPT等产品的广泛应用,确保其输出的安全性成为场景化落地的关键。传统方法是使用RLHF来进行安全对齐,但有两大局限性难以持续使用。在内部安全评估中,RBR训练的模型在安全性和过度拒绝指标上表现出色,F1分数达到97.1,高于人类反馈基线的91.7和有助益基线的95.8。
CipherChat是一个AI框架,旨在系统地研究将安全对齐方法应用于非自然语言的可行性。CipherChat通过密码提示、系统角色分配和简洁的加密演示,使人类与LLM进行交互,全面检查LLM对密码的理解、参与对话的能力以及对不恰当内容的敏感度。请注意:本产品仅供研究使用,严禁滥用。