OpenAI 秘密研究 Q*，离 AGI 又近了一步

2023-11-23 16:11 · 稿源：站长之家

划重点:
1. 🌐 **Q*的重要性:** OpenAI 正在秘密研究名为 Q* 的项目，被认为是迈向通用人工智能（AGI）的一大进步。该项目由首席科学家 Ilya Sutskevar 和其他顶尖研究人员创建，引起了人工智能领域的广泛关注。
2. ⚠️ **安全担忧:** 随着Q*的进展速度加快，一些人工智能安全研究人员表达了担忧。据报道，最近在OpenAI内部传播的Q*演示引发了关于人工智能安全性的讨论，尤其是在迈向AGI的过程中。
3. 🤖 **Q-learning原理:** Q*被认为建立在Q-learning原理之上，这是强化学习领域的基本概念。Q-learning的算法旨在理解特定状态下动作的价值，通过平衡探索和利用，最终找到最优策略以最大化累积奖励。

站长之家(ChinaZ.com) 11月23日消息:近期报道揭示了OpenAI正在进行的秘密研究项目，名为 Q*，这被认为是迈向通用人工智能（AGI）的一项重大进步。该项目由OpenAI的首席科学家Ilya Sutskevar以及其他杰出的研究人员，如Jakub Pachocki和Szymon Sidor共同创建。

AI机器人玩游戏

图源备注：图片由AI生成，图片授权服务商Midjourney

Q*的出现引发了人工智能领域的热议，一些人认为这可能是实现AGI的关键一步。然而，随着该项目的进展速度加快，一些人工智能安全研究人员表达了担忧。据报道，最近在OpenAI内部流传的Q*演示引发了关于人工智能安全性的讨论，特别是在AGI的路径上。

什么是Q-learning

专家认为，Q* 建立在Q-learning的原理之上，Q-learning 是人工智能领域的基本概念，特别是强化学习领域。Q-learning 的算法被归类为无模型强化学习，旨在理解特定状态下动作的价值。

Q-learning的最终目标是找到一个最优策略，定义在每个状态下采取的最佳行动，从而随着时间的推移最大化累积奖励。

Q 学习基于 Q 函数的概念，即状态-动作值函数。该函数使用两个输入进行操作:状态和动作。它返回对预期总奖励的估计，从该状态开始，同时采取该行动，然后遵循最优策略。

在简单的实例中，Q-learning 维护一个表（称为 Q 表），其中每行代表一个状态，每列代表一个动作。该表中的条目是 Q 值，随着代理通过探索和利用进行学习而更新。

Q*的出现是在OpenAI的背景下，而OpenAI的Andrej Karpathy最近在X上的发帖中提到了他对集中化和去中心化之间权衡的思考。他强调了在构建人工智能系统时需要平衡决策和信息的集中化与分散化，而Q-learning似乎是实现这一平衡的理想选择。

OpenAI的Q*项目不仅在技术上是一次突破，更引发了对人工智能安全性和发展方向的深刻思考。这一秘密研究的进展离通用人工智能的实现又更近了一步。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐抱抱脸Open了OpenAI的秘密武器，网易参与复现

OpenAI的秘密武器、ChatGPT背后功臣RLHF，被开源了。来自HuggingFace、加拿大蒙特利尔Mila研究所、网易伏羲AILab的研究人员从零开始复现了OpenAI的RLHFpipeline，罗列了25个关键实施细节。为了进一步探索这一点，原论文附录部分提供了更多类似的可视化效果。

OpenAI
宁德时代站稳万亿市值，评级有可能进一步上调

4月15日，穆迪评级将宁德时代以及宁德时代全资子公司ContemporaryRuidingDevelopmentLimited发行的有担保的高级无抵押债券均上调至A3，并对宁德时代主体给出稳定展望。2024开年以来，看好宁德时代领先优势的权威机构不止穆迪。超充电池超充网络超充服务，宁德时代圈住了围绕超充的高潜增长市场，带给了市场充分想象空间，市值有望继续上行，不仅仅站稳万亿市值有望继续向上突破。

宁德时代穆迪评级摩根士丹利
买易乐看PackGO闺蜜机选京东先人一步下单享1年质保、6期免息

4月10日，易乐看PackGO闺蜜机在京东先人一步抢先开售，据官方介绍，易乐看PackGO闺蜜机是国产首款手提随心屏，小巧便携，露营、野餐随心随行。易乐看PackGO售价6399元，京东新品首发价5999元可享受1年质保、6期免息、晒单返100元E卡、前200名下单用户还赠送腾讯和爱奇艺视频会员年卡、QQ音乐会员年卡、折叠露营车等等，数量有限先到先得。本次全新上市的易乐看PackGO闺蜜机新品已在京东正式开抢，心动的朋友们，来京东先人一步入手新品闺蜜机吧。

易乐看PackGO闺蜜机露营装备便携电视
高温梅雨即将上阵，海尔智家10大场景先行一步

近来，进入前汛期的华南地区已不知“晴”为何物，前有“泼水式”强降雨频频来袭，导致家里到处都是湿漉漉、黏糊糊，让很多用户困扰不已。这不马上，湿热交加的梅雨季又要来了，想要过干爽、省心、舒适的美好生活，怎么做才能有备无患呢?目前，正在全国举行的海尔美好生活焕新季，为用户带来了一步到位的解决方案。此次活动中，海尔智家发起“绿碳计划”，围绕�
OpenAI 在印度开始招聘，以尽早制定监管

OpenAI正式启动了在印度的招聘计划，旨在早期塑造人工智能监管政策。OpenAI已经任命一位政府关系负责人，负责领导公司在印度的公共政策事务。OpenAI的战略举措恰逢其时，将有助于该公司在这一竞争激烈的市场中站稳脚跟，为其未来在印度的发展奠定坚实基础。

OpenAI
北通阿修罗2Pro+星闪手柄京东先人一步开售至高可享12期免息

北通官方正式发布了阿修罗2Pro星闪游戏手柄，这款全新手柄搭载了新一代无线短距通信技术——NearLink星闪技术，自发布起便受到了广泛的关注。该新品已在京东先人一步预售，并将在4月1日10点正式开启现货首发，预售到手价为359元，至高可享12期免息，晒单返1000元京豆，并提供180天质保服务。想要第一时间尝鲜新机的消费者，4月1日10点一定记得锁定京东，先人一步购买全球首款搭载星闪最强新的游戏手柄吧。

北通游戏手柄阿修罗2Pro+ 星闪技术
英伟达斥资7亿美元收购Run:ai，进一步巩固在AI领域地位

AI巨头公司英伟达继续其战略性收购行动，今日宣布将收购一家以色列初创公司，以使AI芯片更高效。这家芯片制造商已经签署了一项“最终协议”，收购基于Kubernetes的软件提供商Run:ai，后者帮助优化图形处理单元上的AI应用和工作负载。“Run:ai自2020年以来一直与英伟达紧密合作，我们都热衷于帮助客户充分利用其基础设施，”Geller在宣布这项交易的英伟达博客文章中说道。

Run:ai 英伟达 AI头条
喜提爱车又进一步！雷军：已在北京深圳交付正式版小米SU7

在昨日直播中，雷军透露称，小米SU7已经在北京和深圳两地开启正式版汽车的交付工作。小米SU7上市后，优先交付创始版，共计5000台，两周已经过去，创始版交付工作即将完成，正式版交付则已经提到了日程之上，这意味着个更多用户距离喜提爱车又进了一步。供应商也被要求增加产能至月产1万辆，高配版车型被要求重点增加产能。
神策数据正式加入鸿蒙生态，进一步革新用户使用体验

神策数据积极拥抱鸿蒙生态，正式发布神策分析HarmonyOSSDK，并成功入驻鸿蒙生态伙伴SDK专区，为鸿蒙应用开发者提供安全合规、高效、精细化的数据分析支持，助力企业更好地理解用户行为，提升用户体验，驱动业务增长。图片来源:鸿蒙生态伙伴SDK专区HarmonyOS发布至今，凭借开放、兼容、安全、高性能等特性，吸引了更多开发者与创新力量，推动应用生态繁荣发展，为企业的架构、体验和生态选择带来了新的机遇。神策分析HarmonyOSSDK的发布，为鸿蒙开发者提供了更强大的数据分析支持，在数据安全合规的基础上，更加高效地进行数据收集与分析，优化应用性能，提升用户体验，从挖掘鸿蒙生态新机遇。

神策数据鸿蒙生态数据分析
OceanBase 4.3版本推出列式存储引擎，进一步加强TP/AP一体化

OceanBase在其“关键业务负载”的一体化战略上再迈一步。4月20日在第二届OceanBase开发者大会上，OceanBase发布4.3版本，推出全新列式存储引擎，打造PB级实时分析数据库，可实现秒级实时分析，进一步加强TP/AP一体化。在OceanBase的开源社区，目前已有118位开发者开通博客，累计有1000多篇技术文章分享，核心仓库拥有300多位外部贡献者，共建代码量超5万行。

OceanBase 一体化战略列式存储引擎

今日大家都在搜的词：

热文

3 天
7天

OpenAI 秘密研究 Q*，离 AGI 又近了一步

今日大家都在搜的词：

热文

站长商机