OpenAI 演示智能 AI 的控制方法：研究人员要求 GPT-2 指挥更强大的 GPT-4

2023-12-15 09:01 · 稿源：站长之家

站长之家(ChinaZ.com) 12 月 15 日消息:OpenAI，一个承诺为全人类利益构建人工智能的公司，自去年推出 ChatGPT 以来，其商业雄心在最近的治理危机中变得更加显著。现在，该公司宣布，一个专注于管理未来超级智能 AI 的新研究小组开始取得成果。

OpenAI，ChatGPT，人工智能，AI

OpenAI 研究员 Leopold Aschenbrenner 表示：「通用人工智能（AGI）正在迅速接近。我们将看到超人类模型，它们将具有巨大的能力，可能非常危险，我们还没有控制它们的方法。」OpenAI 已承诺将其五分之一的计算能力用于 Superalignment 项目。

OpenAI 今天发布的一份研究报告展示了旨在测试一种让较弱 AI 模型引导更智能 AI 模型行为的实验结果。尽管所涉技术远未超越人类的灵活性，但这个场景被设计为代表将来人类必须与比自己更智能的 AI 系统协同合作的时期。

OpenAI 的研究人员检查了称为监督的过程，该过程用于调整像 GPT-4 这样的大型语言模型，使其更有帮助、减少危害。目前这包括人类对 AI 系统提供哪些答案好，哪些答案差的反馈。随着 AI 的进步，研究人员正在探索如何自动化这个过程，以节省时间，也因为他们认为当 AI 变得更强大时，人类提供有用的反馈可能变得不可能。

在一个使用 OpenAI 2019 年首次发布的 GPT-2 文本生成器教授 GPT-4 的对照实验中，较新系统的能力变得更弱，更类似于较差的系统。研究人员测试了两个解决这个问题的想法。一个是训练逐渐更大的模型来减少每一步的性能损失。在另一个中，团队对 GPT-4 添加了一种算法调整，允许更强大的模型在不太削弱其性能的情况下遵循较弱模型的指导。这种方法更有效，尽管研究人员承认，这些方法并不能保证更强大的模型将表现完美，并将其描述为进一步研究的起点。

截屏2023-12-15 上午8.55.57.png

截图来自 OpenAI

AI 安全中心主任 Dan Hendryks 表示：「很高兴看到 OpenAI 积极解决控制超人类 AI 的问题。我们将需要多年的专注努力来应对这一挑战。」

Aschenbrenner 和另外两名参与 Superintelligence 团队的成员 Collin Burns 和 Pavel Izmailov 告诉 WIRED，他们对他们所看到的驯服潜在超人类 AI 的重要第一步感到鼓舞。「即使六年级学生的数学知识不如大学数学专业的学生，他们仍然可以向大学生传达他们想要实现的目标。」Izmailov 说，「这就是我们现在试图实现的。」

Superalignment 小组由 OpenAI 联合创始人、首席科学家及董事会成员 Ilya Sutskever 共同领导。Sutskever 是今天发布的论文的合著者，但 OpenAI 拒绝让他讨论该项目。

在 Altman 上个月回归 OpenAI，并达成大部分董事会辞职的协议后，Sutskever 在公司的未来似乎充满不确定性。

Aschenbrenner 说：「我们非常感激 Ilya。他一直是项目的巨大动力和激励。」

OpenAI 的研究人员并不是第一次尝试使用今天的 AI 技术测试可能帮助驯服未来 AI 系统的技术。像以前在企业和学术实验室中的工作一样，目前无法知道在精心设计的实验中有效的想法是否会在未来实用。研究人员将他们正在尝试完善的让较弱 AI 模型训练更强大模型的能力描述为「超级对齐更广泛问题的一个关键组成部分」。

所谓的 AI 对齐实验也引发了关于任何控制系统可信度的问题。新 OpenAI 技术的核心依赖于更强大的 AI 系统自己决定可以忽略较弱系统的哪些指导，这可能会导致它忽略未来可能防止其不安全行为的信息。为了使这样的系统有用，需要在对齐方面取得进展。Burns 说：「你最终需要非常高度的信任。」

加州大学伯克利分校从事 AI 安全工作的教授 Stuart Russell 表示，使用较不强大的 AI 模型控制更强大模型的想法已经存在一段时间了。他还说，目前存在的教导 AI 行为的方法是否是前进的道路尚不清楚，因为它们到目前为止未能使当前模型可靠地行为。

尽管 OpenAI 正在宣传控制更先进 AI 的第一步，但该公司也热衷于征求外部帮助。该公司今天宣布，将与颇具影响力的投资者、谷歌前首席执行官 Eric Schmidt 合作，向外部研究人员提供 1000 万美元的资助，以促进包括弱对强监督、高级模型的可解释性以及加强模型抵御旨在破坏其限制的提示等主题的进一步发展。OpenAI 还将于明年举办一个关于超级对齐的会议，与新论文有关的研究人员说。

Sutskever 是 OpenAI 的联合创始人和 Superalignment 团队的共同领导，他领导了公司许多最重要的技术工作，是越来越多担心如何控制 AI 变得更强大的著名 AI 人物之一。今年，如何控制未来 AI 技术的问题引起了新的关注，这在很大程度上要归功于 ChatGPT。Sutskever 在深度神经网络先驱 Geoffrey Hinton 的指导下攻读了博士学位，后者今年 5 月离开谷歌，目的是警告 AI 现在似乎正在某些任务中迅速接近人类水平。

（举报）

相关推荐

关键词：

OpenAI发布GPT-5.1：情商大涨本周开始推送

OpenAI正式推出GPT-5.1模型，以“智商与情商深度融合”为核心亮点。新模型优化推理能力，强化情绪价值与个性化交互，包含Instant与Thinking两大核心版本：Instant首次引入自适应推理功能，针对复杂任务延长思考时间，简单问题保持极速响应；Thinking版本智能分配思考时长，提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型，支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度，防范拟人化风险。付费用户可保留旧版三个月过渡期。

GPT-5.1模型智商与情商自适应推理
荐AI全面落地双11，淘宝走出一条和OpenAI不同的路

今年的双11已经进入最后阶段，消费者和商家都有一个明显的感受是，AI的浓度真的很高，并且AI的全面落地应用，真的在改变传统用户购物、商家经营的链路。消费者能感受到两个比较明显的变化:一个是AI导购开始走进真实的购物场景。淘宝为双11投入了六款AI导购类产品，其公布的数据显示，AI万能搜已经帮助消费者解决了5000万个消费需求。另一个则是平台推荐的商品越

AI导购双11购物淘宝AI
Qwen用开源逆袭GPT的故事，千问APP要再干一遍

Qwen模型逆袭GPT的策略，阿里准备再用一次。 2018年，OpenAI发布了自己的第一个模型GPT1，占据了技术先机，随后变得越来越封闭。在大洋彼岸，阿里几乎同一时间着手大模型研究，到2023年推出“通义千问”时，则选择了一条完全不同的路径:直接开源模型，允许开发者免费使用、改进和集成。这个策略让Qwen逐步积累起规模，做到了如今全球开发者基于它发布了17万个衍生模型�

文章搜索核心标签硅星人Pro
荐OpenAI和微软的关系没那么糟，跟英伟达也没那么好

OpenAI的动作比所有人想象的都要快。上周二，OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议，结束了Azure长达六年的云服务独占模式。此前，OpenAI所有模型的训练、推理与部署都必须优先选择Azure，微软还享有优先购买权。宣布与Azure“分手”后不到一周，OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议，OpenAI将全面接入

OpenAI 云计算战略合作
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
荐50人团队、1亿美元ARR，AI PPT还在续写“神话”？

AI 生成 PPT 可以说是去年的热门赛道，尤记得关于这类产品是否具有真正竞争力的热烈讨论，而2025年9月份的数据显示，赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且，今天官宣了由 a16z 领投的6800万美元 B 轮融资，融资后估值达到21亿美元。而不仅 Gamma，根据 AI 产品榜数据，9月份，AIPPT 赛道的 Top3产品流量平均涨幅30%+，更有一款

AI生成PPT Gamma融资 AIPPT赛道
荐AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；Kimi K2成功接入Perplexity

本期AI日报聚焦多项技术突破：蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用；xAI推出免费Grok 4.1模型显著提升质量与速度；Poe推出200人群聊功能支持多模型协作；OceanBase发布首款AI数据库seekdb实现混合搜索；国产模型Kimi K2接入Perplexity展现国际竞争力；谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%；ElevenLabs升级为一站式内容生成平台；昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite，用户拍照即可自动完成任务。

AI助手蚂蚁集团灵光App
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
前DeepSeek研究员罗福莉已加入小米：全力奔赴AGI

11月12日，“95后AI天才少女”罗福莉宣布加入小米MiMo大模型团队。她曾因“雷军千万年薪挖角”话题引发热议，拥有丰富AI研发经历，先后在幻方量化和DeepSeek参与大模型研发。罗福莉表示，将与团队致力于推动AI从语言迈向物理世界，全力构建通用人工智能。她的加入将为小米AI研究注入新活力。

AI天才少女小米大模型罗福莉

今日大家都在搜的词：

热文

3 天
7天

OpenAI 演示智能 AI 的控制方法：研究人员要求 GPT-2 指挥更强大的 GPT-4

OpenAI发布GPT-5.1：情商大涨本周开始推送

荐AI全面落地双11，淘宝走出一条和OpenAI不同的路

Qwen用开源逆袭GPT的故事，千问APP要再干一遍

荐OpenAI和微软的关系没那么糟，跟英伟达也没那么好

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

荐50人团队、1亿美元ARR，AI PPT还在续写“神话”？

荐AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；Kimi K2成功接入Perplexity

荐OpenAI也来了，巨头为何决战AI浏览器？

前DeepSeek研究员罗福莉已加入小米：全力奔赴AGI

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

参与开发iPhoneAir设计师离职转投AI初创公司

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

小米超级小爱AI大模型推出随心修图功能

站长商机