首页 > 业界 > 关键词  > 大语言模型最新资讯  > 正文

​IBM Research发布SimPlan:采用混合方法加强LLM在规划任务中的能力

2024-03-08 09:24 · 稿源:站长之家

**划重点:**

1. 🤖 SimPlan是IBM Research的创新之举,采用混合方法加强大语言模型(LLMs)在规划任务中的能力。

2. 🔄 SimPlan通过引入双编码器模型和贪婪最佳优先搜索算法,成功解决了LLMs在规划中的局限性,在各种规划领域表现出卓越效果。

3. 🌐 该技术突破为人工智能应用开辟了新的可能性,将经典规划技术与先进的自然语言处理能力相结合,为未来创建更可靠和复杂的人工智能系统奠定了基础。

站长之家(ChinaZ.com)3月8日 消息:设计在特定环境中实现目标的一系列操作是测试人工智能能力和规划能力的重要标志。传统上,这一领域通过算法来制定潜在的操作序列,以寻找最优解,对于从机器人到自动决策系统等应用至关重要。然而,大语言模型(LLMs)在这些规划任务中的局限性一直是一个重要障碍。尽管LLMs在解析和理解大片自然语言方面表现出色,但它们在规划中往往需要帮助,难以准确建模环境内行动的效果或有效地探索状态空间。

image.png

IBM Research的研究人员通过开发“SimPlan”来直面这个问题,这是一种混合方法,旨在通过将它们与传统规划策略相结合,加强LLMs的规划能力。SimPlan是一项开创性的工作,旨在弥合LLMs语言技能和传统规划算法的结构化、基于规则的方法之间的差距。该方法旨在利用LLMs的自然语言技能,同时通过更纪律化、算法化的方式纠正它们在规划场景中的缺陷。

SimPlan创新的核心是一种双编码器模型,旨在根据当前状态和定义的目标对可能的操作进行排名,直接解决了在规划场景中识别相关操作的挑战。该模型利用了后交互架构,通过计算查询和上下文中个别标记之间的余弦相似性,增强了其预测能力,而不是依赖于池化表示。系统使用交叉熵损失来优化行动选择过程,将排名最高的行动与黄金下一行动进行比较,并引入负面示例以防止行动表示崩溃。

SimPlan还引入了贪婪最佳优先搜索(GBFS)算法的新颖用法,与通常在自然语言生成中使用的传统束搜索方法不同。这种选择是由GBFS算法更有效地探索状态空间的能力所驱动的,其重点是探索高潜力路径,而不是优化本地序列。这种战略性的转变旨在增强模型预测行动的影响并将其序列化朝着设定的目标更为优化地进行。

SimPlan在各种规划领域的性能评估显示,与现有的基于LLMs的规划器相比,其效果显著。广泛的实验证明,SimPlan在解决复杂规划问题时比其前身表现出色,以卓越的准确性和效率解决了问题。例如,在不同规划场景的测试中,SimPlan在简单配置中实现了100%的成功率,并在复杂环境中保持了卓越的性能,远远超过传统的基于LLMs的方法。具体而言,在传统规划器无法胜任的复杂问题实例中,SimPlan的混合方法展现出其强大之处,以娴熟的方式穿越复杂的规划挑战。

IBM Research的这一突破突显了混合方法在增强LLMs规划能力方面的潜力。它为需要复杂问题解决和决策能力的人工智能应用设定了新的基准。通过解决长期以来困扰LLMs在规划任务中的关键挑战,SimPlan为在各种复杂场景中部署人工智能开辟了新的可能性。SimPlan的成功强调了将经典规划技术与LLMs的先进自然语言处理能力相结合的重要性,为未来创造更可靠、复杂的人工智能系统打开了大门。

IBM Research团队开发的SimPlan标志着人工智能规划的重大飞跃。通过其创新的混合方法,SimPlan不仅克服了LLMs在规划任务中的固有限制,还宣告了一种能够应对各个行业中复杂决策和问题解决挑战的人工智能应用新时代的到来。IBM Research团队的工作强调了将经典规划方法与LLMs先进能力相结合的转变潜力,为未来创造更可靠和复杂的人工智能系统奠定了基础。

举报

  • 相关推荐
  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • AI日报:OpenAI发布浏览器Atlas;通义Qwen3-VL新增2B、32B两个模型尺寸;百川发布循环证据增强大模型

    本文汇总AI领域最新动态:OpenAI推出集成ChatGPT的Atlas浏览器,实现多任务自主处理;阿里通义千问新增2B/32B视觉语言模型,手机可流畅运行;谷歌AI Studio升级Vibe Coding功能,简化应用开发流程;百川发布医疗大模型M2Plus,通过循证推理降低误诊率;奇瑞墨甲机器人实现L3级技术突破,计划多行业应用;YouTube推出AI肖像识别工具,打击虚假内容;三星宣布2026年推出AI眼镜,融合AR与语音助手;Claude客户端更新,支持截图分析和语音交互功能。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 学生可享额外优惠!购三星Galaxy Z Flip7满足你在校园的多样需求

    三星Galaxy Z Flip7双十一期间推出学生专属优惠,折叠设计搭配4.1英寸智能外屏,便于课间快速处理日程和消息。内置Galaxy AI功能,支持文件整理、实时翻译及演讲辅助,提升学习效率。影像系统配备5000万像素双摄和自由拍摄模式,轻松捕捉校园生活。提供珊瑚红等四款配色,学生认证可享额外400元优惠,活动期间还提供保价服务。

  • 每天刷手机 青少年认知能力显著下降:高频互动或致语言记忆下滑

    加州大学研究团队在《美国医学会杂志》发表研究,追踪6500名9至13岁青少年社交媒体使用行为。研究发现,社交媒体使用时长增加与认知能力下降存在显著关联,尤其影响语言流畅度、工作记忆等核心功能。研究指出,社交媒体高频互动特性会切割注意力,干扰大脑深度信息处理能力。专家建议家长关注使用模式而非单纯限制时间,结合个体认知特点制定干预策略,引导青少年建立健康媒介使用习惯。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 微星MPG 242R X60N显示器开启610Hz超频时代,半价引爆FPS战场

    微星推出专业电竞显示器MPG242R+X60N,以610Hz超高刷新率与0.1ms响应速度重新定义行业标准。搭载快速液晶TN面板,配合MPRT同步技术,有效消除画面拖影,在《CS:GO》等快节奏FPS游戏中实现流畅操作。支持HDR400广色域与98W Type-C反向供电,兼顾色彩表现与设备兼容性。双十一期间优惠价3999元,近乎半价折扣,为玩家提供入手高端电竞装备的绝佳时机。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

今日大家都在搜的词: