GPT进化之路：告别“题海战术”，AI也能像人一样“悟”了？

2024-10-25 17:01 · 来源： AIbase基地

大型语言模型（LLM）如GPT系列，凭借庞大的数据集，在语言理解、推理和规划方面展现出惊人的能力，在各种挑战性任务中已达到与人类相当的水平。大多数研究都集中在通过在更大的数据集上训练这些模型来进一步增强它们，目标是开发更强大的基础模型。

然而，虽然训练更强大的基础模型至关重要，但研究人员认为，赋予模型在推理阶段也能持续进化的能力，即AI自我进化，对AI的发展同样至关重要。与使用大规模数据训练模型相比，自我进化可能只需要有限的数据或交互。

受人类大脑皮层柱状结构的启发，研究人员假设AI模型可以通过与其环境的迭代交互，发展出涌现的认知能力并构建内部表征模型。

为实现这一目标，研究人员提出模型必须具备长期记忆（LTM），用于存储和管理处理后的现实世界交互数据。LTM不仅能够在统计模型中表示长尾个体数据，还能通过支持跨越各种环境和代理的不同体验来促进自我进化。

LTM是实现AI自我进化的关键。类似于人类通过个人经历和与环境的互动不断学习和改进，AI模型的自我进化也依赖于在交互过程中积累的LTM数据。不同于人类的进化，LTM驱动的模型进化不局限于现实世界的交互。模型可以像人类一样与物理环境交互并接收直接反馈，这些反馈经过处理后将增强其能力，这也是具身AI的一个关键研究领域。

另一方面，模型也可以在虚拟环境中进行交互并积累LTM数据，与现实世界交互相比，这具有更低的成本和更高的效率，从而更有效地增强能力。

构建LTM需要将原始数据进行提炼和结构化。原始数据是指模型通过与外部环境的交互或在训练过程中接收到的所有未处理数据的集合。这些数据包含各种观察结果和记录，其中可能包含有价值的模式和大量冗余或不相关的信息。

虽然原始数据构成了模型记忆和认知的基础，但需要对其进行进一步处理才能有效地用于个性化或高效地执行任务。 LTM将这些原始数据提炼和结构化，使模型可以使用它们。这一过程增强了模型提供个性化响应和建议的能力。

构建LTM面临着数据稀疏性和用户多样性等挑战。在持续更新的LTM系统中，数据稀疏性是一个常见问题，特别是对于交互历史有限或活动零散的用户而言，这使得模型训练变得困难。此外，用户多样性也增加了复杂性，要求模型既要适应个体模式，又要有效地跨越不同的用户群体进行泛化。

研究人员开发了一个名为Omne的多代理协作框架，该框架基于LTM实现了AI自我进化。在这个框架中，每个代理都有一个独立的系统结构，可以自主学习和存储一个完整的环境模型，从而构建对环境的独立理解。通过这种基于LTM的协作开发，AI系统可以实时适应个体行为的变化，优化任务规划和执行，进一步促进个性化和高效的AI自我进化。

Omne框架在GAIA基准测试中取得了第一名的成绩，证明了利用LTM进行AI自我进化和解决现实世界问题的巨大潜力。研究人员相信，推进LTM的研究对于AI技术的持续发展和实际应用至关重要，尤其是在自我进化方面。

总而言之，长期记忆是AI自我进化的关键，它使AI模型能够像人类一样从经验中学习和改进。构建和利用LTM需要克服数据稀疏性和用户多样性等挑战。 Omne框架为基于LTM的AI自我进化提供了一个可行的方案，其在GAIA基准测试中的成功表明了该领域的巨大潜力。

论文：https://arxiv.org/pdf/2410.15665

相关推荐

共创欧美本土品牌破局之路：科大讯飞×出海启明星品牌游学圆满收官

8月15日，由讯飞AI营销联合出海启明星、万里汇WorldFirst主办的"走进科大讯飞"品牌游学活动在深圳圆满收官。活动聚焦"共创欧美本土品牌营销的破局之路"主题，40余家出海头部品牌负责人通过深度洞察、实战分享与圈层交流，探讨中国品牌全球化进程中的核心痛点。讯飞AI营销展示了其AI驱动的程序化广告平台GrowOne、红人营销平台iFLYTalent等解决方案，已服务1800+客户，覆盖20亿用户和100个国家。活动通过行业大咖实战经验分享，为出海企业提供了从产品营销到品牌落地的全链路策略，助力中国品牌突破全球化壁垒，实现从本土品牌到"全球爆款"的跨越。

AI营销品牌出海全球化
GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

OpenAI发布最强AI模型GPT-5，但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降，且官方突然下架GPT-4o等8个旧模型，导致付费用户抗议。部分用户对旧版产生情感依赖，认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升，但交互体验明显退步。CEO承认低估用户对旧版的喜爱，承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减，面临数据质量和算力成本限制。总体而言，GPT-5在技术指标进步的同时，牺牲了情感交互体验。

GPT-5发布 OpenAI AI模型淘汰
荐GPT5发布，槽点竟多过亮点：AGI没来，AI公司肉搏时代来了

我们至今不知道让奥特曼“瘫倒在椅子上”的是什么力量。因为人们等待许久的GPT-5发布，至少从大家第一时间对发布会的感受来看，居然是槽点，甚至笑料多过了亮点…… 几个月前，甚至发布前，都不会有人想到，这么万众期待的模型发布，被传播最多的会是多张让人哭笑不得的错误图表:

GPT5
荐因为GPT-5，这群人决定在Reddit上起义。

这个周末，对OpenAI的抗诉，好像从未如此热闹过。起因自然还是因为GPT-5。 OpenAI上了GPT-5当天，做了一个非常神奇的操作，他们只保留了GPT-5，然后把GPT-4.5、GPT-4o、o3什么的，全都砍掉了。

GPT-5
GPT-5有望明天发布 OpenAI：免费无限使用

OpenAI宣布将于太平洋时间7月4日上午10点（北京时间7月5日凌晨1点）举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM"，引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能，但会设置防滥用阈值；Plus和Pro用户则可享受更智能的GPT-5服务，包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实，这将是AI爱好者的重大福利，也将进一步提升ChatGPT的实用性和用户体验。

OpenAI GPT-5 直播活动
GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

OpenAI正式发布GPT-5，与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出；Claude4Opus编程优异(72.5%)但数学较弱(33.9%)；Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面，GPT-5和Gemini2.5Pro定价相近($1.25-$10)，Claude4Opus较高($15-$75)。建议根据需求选择：GPT-5适合综合应用，Claude4Opus适合专业编程，Gemini2.5Pro适合长文档�

GPT-5发布大语言模型性能对比
OpenAI正式发布GPT-5模型网友：写作像诗人

OpenAI在直播活动中正式推出新一代人工智能模型GPT-5，宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域，实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）形容，与GPT-5交互如同与各领域专家对话，其多维度能力突破将重塑人机协作模式。分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送，免费用户与付�
新高考数学挑战重重，《学魁母题清单》为学生点亮高分之路！

近年来高考改革持续推进，数学科目难度升级、题型创新，让考生倍感压力。学魁榜针对这一变化推出升级版《学魁母题清单》，包含新高考创新题、九省联考真题等权威题源，采用"学、练、查"三册一体设计：讲解册由清北学霸总结经典母题解题方法；练习册提供变式训练；答案册规范答题步骤。教材还融入二维码视频讲解，并适配不同地区教材版本，帮助学生精准把握新高考命题趋势，实现高效提分。

新高考改革数学难度题型创新
一图了解小米澎湃OS近期升级：苹果Mac也能用小米手机App

今日，小米澎湃OS发布澎湃OS2近期升级功能一览，包括小米AI眼镜拍照、视频通话支持跨设备调用镜头、苹果Mac跨生态互联、超级小爱记忆、相册编辑界面优化等。部分升级功能如下：小米AI眼镜进行微信、QQ等应用视频通话时，支持开启跨设备相机，调用眼镜摄像头、分享第一视角。小米手表S4 14周年纪念版支持使用遥控拍照功能，用手表预览相机画面。小米开放式耳机Pr

小米澎湃OS 跨设备互联 AI眼镜
博士水平的GPT-5依然翻车 OpenAI奥特曼：AGI已失去意义

上周末OpenAI公司发布了传闻已久的GPT-5大模型，号称迄今为止最先进的人工智能模型，具备博士级别的智能水平。 GPT-5发布之后在多个榜单上确实刷榜了，包括编程、数学等，总计拿到了25个榜单的第一，评分表现很震撼。然而上线之后，GPT-5的实际表现引发质疑，跑分第一不代表实际体验第一，甚至被不少用户认为表现倒退了，反应也变慢，这可能是OpenAI翻车最快的旗舰大�

GPT-5发布人工智能模型 OpenAI整改

今日大家都在搜的词：

热文

3 天
7天

GPT进化之路：告别“题海战术”，AI也能像人一样“悟”了？

共创欧美本土品牌破局之路：科大讯飞×出海启明星品牌游学圆满收官

GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

荐GPT5发布，槽点竟多过亮点：AGI没来，AI公司肉搏时代来了

荐因为GPT-5，这群人决定在Reddit上起义。

GPT-5有望明天发布 OpenAI：免费无限使用

GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

OpenAI正式发布GPT-5模型网友：写作像诗人

新高考数学挑战重重，《学魁母题清单》为学生点亮高分之路！

一图了解小米澎湃OS近期升级：苹果Mac也能用小米手机App

博士水平的GPT-5依然翻车 OpenAI奥特曼：AGI已失去意义

今日大家都在搜的词：

热文

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

REDMI Note 15 Pro+外观公布：配备全等深微曲屏幕与机身

享界S9T开启预售：32.8万起华为鸿蒙智行旗下首款旅行车

真我15系列官宣9月发布号称轻薄影像神器

王腾晒出REDMI Note 15 Pro：云霞紫配色亮相

曝iPhone18标准版推迟到2027年折叠屏与Pro系列率先登场

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

REDMI Note 15系列定档将于8月21日发布

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

苹果正式入驻小红书 iPhone 17系列下月发布

华为MatePad Air 12英寸2025发布：售价2799元起

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air新款官宣8月15日发布

站长商机