OpenAI 详细介绍自己如何确保安全地构建、部署和使用 AI 系统

2023-04-06 09:30 · 稿源：站长之家

站长之家(ChinaZ.com) 4月6日消息:OpenAI 今天发布博客文章，详细介绍了其确保 AI 安全的方法，包括进行安全评估、改进发布后的保障措施、保护儿童以及尊重隐私等。

OpenAI，ChatGPT，人工智能，AI

该公司表示，他们提供的 AI 工具能够提高工作效率、增强创造力，还提供量身定制的学习体验。然而，他们也认识到这些工具存在潜在风险，因此他们在各个系统层面上努力确保安全性。

他们不仅仅在推出新的人工智能系统之前进行严格的测试，还征求外部专家的意见并且通过人工反馈的强化学习等技术来改善模型的表现。同时，他们建立了广泛的安全和监控系统。OpenAI 积极与各国政府接触，探讨最佳的监管形式，以确保创建和发布更加安全的人工智能系统。

以下是 OpenAI 博客文章全文：

OpenAI 致力于确保强大的 AI 安全，让尽可能多的人受益。我们知道，我们的 AI 工具为当今人们提供了许多帮助。世界各地的用户向我们反馈，ChatGPT 有助于提高他们的工作效率、增强他们的创造力，并提供量身定制的学习体验。但我们也认识到，与任何技术一样，这些工具也存在真正的风险——因此我们正在努力确保在各个系统层面上的安全性。

构建越来越安全的人工智能系统

在推出任何新的人工智能系统之前，我们都会进行严格的测试，征求外部专家的意见，并通过人工反馈的强化学习等技术来改善模型的表现。同时，我们还建立了广泛的安全和监控系统。

以我们最新的模型 GPT-4 为例，完成训练后，我们在整个公司范围内进行了长达 6 个月的测试，以确保其在公开发布之前更加安全可靠。

我们认为，强大的人工智能系统应该接受严格的安全评估。监管是必要的，以确保这种做法被广泛采纳。因此，我们积极与各国政府接触，探讨最佳的监管形式。

从实际使用中学习以改进保障措施

我们尽力在系统部署之前预防可预见的风险，但实验室中的学习永远有限。我们广泛研究和测试，但无法预测人们会如何使用我们的技术，或滥用它。因此，我们认为从实际使用中学习，是创建和发布越来越安全的人工智能系统的关键组成部分。

我们谨慎地将新的人工智能系统逐步发布给人群，并采取实质性的保障措施，并根据我们吸取的教训不断改进。

我们提供自己服务和 API 中最强大的模型，以便开发人员可以直接将技术集成到他们的应用程序中。这使我们能够监控滥用行为并采取行动，同时制定应对措施。这样，我们可以采取实际行动，而不仅仅在理论上想象如何应对。

实际使用中的经验也促使我们制定了越来越细化的政策，以应对对人们构成真正风险的行为，同时仍然允许我们的技术以更有益的方式使用。

我们认为，社会需要更多时间适应日益强大的人工智能，每个受其影响的人都应该在人工智能的进一步发展方面拥有发言权。迭代部署有助于不同利益相关者更有效地参与人工智能技术的对话中，而拥有使用这些工具的第一手经验至关重要。

保护儿童

我们安全工作的重点之一是保护儿童。我们要求人们必须年满 18 岁，或者在父母同意的情况下年满 13 岁，才能使用我们的 AI 工具。目前，我们正在研究验证功能。

我们不允许我们的技术被用于生成仇恨、骚扰、暴力或成人内容等类别。与 GPT-3.5 相比，我们最新的模型 GPT-4 对受限制内容请求做出响应的可能性降低了 82%，并且我们已经建立了一个强大的系统来监控滥用情况。GPT-4 现在可供 ChatGPT Plus 订阅者使用，我们希望随着时间的推移让更多人可以使用它。

我们已做出重大努力，以尽量减少我们的模型生成伤害儿童内容的可能性。例如，当用户试图将儿童安全虐待材料上传到我们的图像工具时，我们会阻止它并向国家失踪和受剥削儿童中心报告此事。

除了我们默认的安全护栏外，我们还与非营利性可汗学院等开发人员合作——该学院开发了一个人工智能助手，既可以作为学生的虚拟导师，也可以作为教师的课堂助手——为他们量身定制安全措施。我们还在研究允许开发人员为模型输出设置更严格标准的功能，以更好地支持需要此类功能的开发人员和用户。

尊重隐私

我们的大型语言模型是在广泛的文本语料库上进行训练的，其中包括公开可用的内容、获得授权的内容以及由人类审核人员生成的内容。我们不利用这些数据来销售我们的服务或广告，也不用它们来建立个人档案。我们只是利用这些数据来让我们的模型更好地为人们提供帮助，例如通过与人们进行更多对话来提高 ChatGPT 的智能水平。

尽管我们的许多训练数据中包括可以在公共网络上获得的个人信息，但我们希望我们的模型了解的是整个世界，而不是个人。因此，我们致力于在可行的情况下从训练数据集中删除个人信息，微调模型以拒绝个人信息的查询请求，并响应个人从我们的系统中删除其个人信息的请求。这些措施将我们的模型生成包含个人信息的响应的可能性降至最低。

提高事实准确性

现今的大型语言模型，基于之前的模式和用户输入的文本，可以预测下一个可能要使用的词汇。但在某些情况下，下一个最有可能出现的词汇实际上可能存在事实性错误。

提高事实准确性是 OpenAI 和许多其他 AI 研究机构关注的重点之一，我们正在取得进展。通过利用被标记为不正确的 ChatGPT 输出的用户反馈作为主要数据来源，我们提高了 GPT-4的事实准确性。相比于 GPT-3.5，GPT-4更可能产生符合事实的内容，提高幅度达到40%。

当用户注册使用该工具时，我们努力做到尽可能透明，以避免 ChatGPT 可能给出错误回复。然而，我们已经认识到，要进一步降低误解的可能性，并教育公众了解这些 AI 工具目前的局限性，还有很多工作要做。

持续的研究和参与

我们认为，解决 AI 安全问题的切实可行方法是投入更多时间和资源来研究有效的缓解和校准技术，并测试它们在现实世界中可能的滥用情况。

重要的是，我们还认为，提高人工智能的安全性和能力应该齐头并进。迄今为止，我们最好的安全工作来自于我们最强大的模型，因为它们更善于遵循用户的指示，更容易操纵或「引导」。

我们将越来越谨慎地创建和部署功能更强大的模型，并将随着我们的人工智能系统的发展继续加强安全预防措施。

虽然我们等了 6 个多月才部署 GPT-4 以更好地了解其功能、优势和风险，但有时可能需要比这更长的时间来提高 AI 系统的安全性。因此，政策制定者和 AI 开发商需要确保 AI 的开发和部署在全球范围内得到有效监管，这样就没有人会为了取得成功而采取捷径。这是一项艰巨的挑战，需要技术和制度创新，但我们渴望为之做出贡献。

解决安全问题还需要广泛的辩论、实验和参与，包括人工智能系统行为的界限。我们已经并将继续促进利益相关者之间的合作和公开对话，以创建一个安全的人工智能生态系统。

（举报）

相关推荐

关键词：

AI 工具多到头疼？AI 工具大全看这个网站就够了

本文针对AI工具过多、难以筛选的问题，推荐了多个优质AI工具导航平台。文章首先指出当前AI工具数量庞大、信息碎片化严重，普通用户难以快速找到优质工具。随后重点推荐了Insidr.ai、Futurepedia.io、Toolify.ai等国际平台，以及国内平台AIbase，这些平台收录了数千款主流AI工具，覆盖写作、图像生成、编程、办公自动化等各类场景，支持分类检索、工具评测和对比功能。文章特别

AI工具文案辅助图像生成
8.8咕泡品牌日九年沉淀开启AI人才全栈革命

本文介绍了人工智能教育平台"咕泡科技"在2025年8月8日迎来第九个品牌日，重点展示其AI教育生态布局。主要内容包括： 1. 品牌发展历程：2016年由三位技术人创立，九年来形成"教育为基、科技为擎、人才为核"的发展理念； 2. 教育体系特色：构建"学-研-战-聘"闭环，推出五大课程体系，覆盖AI大模型全栈技术； 3. 平台优势：拥有100万+注册用户，200万+粉丝，与300+高校合作，获得CMMI3等国际认证； 4. 创新实践：推出AI实训CDE平台，整合腾讯云算力，支持工业级项目开发； 5. 品牌日活动：聚焦AI前沿技术，新增YOLO12/13、多模态大模型等课程模块，提供24个月技术保障。平台致力于通过"教育-实训-就业"全链路培养AI人才，推动技术落地应用。

人工智能教育人才升级技术赋能
WAIC 2025超擎数智圆满收官！AI全栈火爆出圈，加速AI应用变革新引擎

2025世界人工智能大会(WAIC)在上海圆满落幕，以"智能时代同球共济"为主题，吸引全球800多家企业参展，线下参观达30.5万人次。超擎数智以"AI全栈·数智赋能"为主题，展示AI应用全栈方案及行业解决方案，并联合NVIDIA发布中国首个L20千卡灯塔集群项目。大会呈现AI核心技术、行业应用及生态建设全景，包括AI服务器、网络设备等产品，以及医疗、金融等场景应用。超擎数智还展示了AI开发平台和算力优化服务，助力各行业智能化转型。六场AI主题演讲深入探讨技术突破与产业赋能，共绘智能时代新图景。

2025世界人工智能大会人工智能应用智能终端
最全AI工具导航网站盘点:国内优质AI工具导航平台深度解析

本文介绍了国内主流AI工具导航网站，帮助用户在海量AI工具中精准定位所需。随着AI技术发展，优质导航网站不仅能系统性分类各类工具，还能提供实时更新的评测和使用指南。重点推荐了5个平台：AIbase（收录超1万工具）、AI工具集（注重实用性评估）、优设AI导航（设计师专用）、AI导航网（创新性工具推荐）、AI工具网（智能搜索匹配）。建议用户根据工具收录量、分类体�
荐AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

本文汇总了AI领域最新动态：1)阿里开源文生图模型Qwen-Image，中文文本渲染领先；2)ChatGPT周活用户达7亿，OpenAI年收入120亿美元；3)Anthropic测试Claude Opus 4.1，推理能力升级；4)智谱推出开发工具Zread.ai提升代码理解效率；5)xAI发布Grok Imagine4支持文生视频及NSFW内容；6)Character.AI推出首个AI原生社交功能；7)阿里与南开合作视频压缩技术LLaVA-Scissor；8)北京团队突破人形机器人3D视觉系统�

人工智能文生图模型阿里通义千问
AI 工具导航网站哪个好？超全 AI 工具导航网站推荐指南

本文介绍了当前主流AI工具导航平台的特点和优势，帮助用户快速找到合适工具。重点推荐了5个平台：Futurepedia收录3000+工具，分类细致并提供实测指南；Insidr.ai含500+工具，适合专业用户查找；AI Parabellum对4500+工具进行深度测评；Product Hunt适合发现前沿新品；AIBase覆盖13000+工具，支持多维度筛选。特别推荐AIBase因其工具覆盖广、分类细、更新快、界面友好，并提供详细使用教程和API文档，是寻找AI工具的一站式解决方案。

AI工具生成AI 自动化平台
Custouch市场易AI技术入选Topdigital2025全球AI营销图谱

《TopDigital2025全球AI营销图谱》近日发布，Custouch市场易入选"内容智能生成"板块。该图谱为AI技术重构营销提供全链路产业地图，整合企业官网、学术报告、专利库等多维度信息。Custouch凭借AI技术在B2B营销领域的创新应用入选，其智能解决方案能有效满足企业实际需求。作为数字营销技术服务商，Custouch已为300+国际头部企业提供一站式营销管理体系，涵盖内容、活动、线索等全流程，助力企业实现高质量增长。此次入选既是对其AI成果的肯定，也是对其未来发展的激励。

AI营销内容智能生成数字营销
腾讯旗下AI工作台ima上线新功能：支持上传文件生成AI播客

腾讯旗下AI工作台ima迎来重大升级，以活知识库大模型的深度耦合重构知识管理体系。此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客，Xmind思维导图经智能解析后自动沉淀为结构化知识库，共享知识库更支持关键信息置顶功能。这些创新使得碎片化知识如同被注入生命力，通过动态重组转化为驱动组织进化的智能中枢。

腾讯 AI工作台知识管理
中国乳企，用AI对冲周期

在全球乳业市场波动加剧、出生率持续走低、消费者需求日益多元化的背景下，中国乳企正直面“奶周期”的严峻挑战。今年7月的第一周，农业农村部数据显示，内蒙古、河北等10个主产省份生鲜乳平均价3.04元/公斤，同比下降6.5%，逼近周期底部。另有市场调研机构尼尔森IQ的数据显示，2024年底国内乳制品全渠道销售额下降2.7%，线下跌幅更为明显达到5%。供给过剩、消费疲软

中国乳业奶周期乳制品市场
国内有哪些AI工具导航网站?2025年最全AI工具导航网站盘点

本文介绍了国内主要AI工具导航网站，帮助用户快速找到合适的AI资源。重点推荐了AIbase、AI工具集、人工智能导航和AI导航站等平台，这些网站收录了上万种AI工具，涵盖聊天助手、办公、视频、编程、写作、图像等多个领域。文章分析了各平台特色：AIbase规模大、分类全；AI工具集界面简洁更新快；人工智能导航提供综合学习资源；AI导航站有智能推荐系统。建议用户根据需求选择内容丰富、分类清晰、体验良好的导航网站，并关注更新和社区互动，以充分利用AI工具提升效率。

人工智能 AI工具工具导航

热文

3 天
7天

OpenAI 详细介绍自己如何确保安全地构建、部署和使用 AI 系统

AI 工具多到头疼？AI 工具大全看这个网站就够了

8.8咕泡品牌日九年沉淀开启AI人才全栈革命

WAIC 2025超擎数智圆满收官！AI全栈火爆出圈，加速AI应用变革新引擎

最全AI工具导航网站盘点:国内优质AI工具导航平台深度解析

荐AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

AI 工具导航网站哪个好？超全 AI 工具导航网站推荐指南

Custouch市场易AI技术入选Topdigital2025全球AI营销图谱

腾讯旗下AI工作台ima上线新功能：支持上传文件生成AI播客

中国乳企，用AI对冲周期

国内有哪些AI工具导航网站?2025年最全AI工具导航网站盘点

热文

理想回应和乘龙重卡碰撞测试：被卷入舆情争议实属无心之举

AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型

法拉第方回应新车抄袭长城：联合开发不存在抄袭

荣耀畅玩70 Plus发布：骁龙6系芯片国补售价1019.15元起

AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashen

理想i8宣布统一版本：标配即顶配并降价1万元

微信员工辟谣改日期恢复过期文件：纯属谣言

第五人格崩了上热搜网易旗下多款游戏回应：紧急排查中

李想回应理想i8统一配置版本：此前陷入惯性思维

腾讯张军回应云客服仿冒腾讯会议App：还好名字露了马脚

腾讯客服回应微信提现手续费下降：已进行全量更新

AI日报：Kimi K2 高速版发布；美图WHEE上线视频超清功能；字节

理想回应和乘龙重卡碰撞测试：被卷入舆情争议实属无心之举

理想邀请乘龙卡车直播对撞东风柳汽：理想撞卡车视频严重侵权

REDMI Pad 2开售：售价999元起 11英寸2.5K大屏

小米汽车7月交付量超30000台创历史新高

AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型

法拉第方回应新车抄袭长城：联合开发不存在抄袭

荣耀畅玩70 Plus发布：骁龙6系芯片国补售价1019.15元起

京东外卖：继续反内卷呼吁停止“0元购”

站长商机