首页 > AI头条  > 正文

清华校友用AI征服162个数学定理,连陶哲轩的难题也难不倒它!

2024-10-12 17:53 · 来源: AIbase基地

最新的数学界轰动新闻中,一群来自清华的校友们借助 AI 的力量,成功证明了162个之前无人能解的数学定理。更厉害的是,这个名叫 LeanAgent 的智能体,竟然还攻克了陶哲轩对多项式 Freiman-Ruzsa 猜想的形式化难题!这让我们不得不感叹,基础科学的研究方法可谓是被 AI 彻底改头换面了。

众所周知,当前的语言模型(LLM)虽然炫酷,但大多依然是静态的,无法在线学习新知识,证明高等数学定理更是难如登天。然而,加州理工、斯坦福大学和华盛顿大学的研究团队联合开发的 LeanAgent,正是一个具备终身学习能力的 AI 助手,能够不断地学习和证明定理。

image.png

LeanAgent 通过精心设计的学习路径来应对不同数学难度,利用动态数据库管理源源不断的数学知识,确保它在学习新知识时不会忘记已经掌握的技能。实验表明,它成功从23个不同的 Lean 代码库中,证明了162个此前无人能解的数学定理,性能比传统的大模型高出了整整11倍,真是令人惊叹!

这些定理涵盖了高等数学的诸多领域,包括抽象代数和代数拓扑等棘手的问题。LeanAgent 不仅能够从简单概念入手,逐渐攻克复杂主题,还在稳定性和反向迁移方面展现了卓越的表现。

不过,陶哲轩的挑战依然让 AI 感到无奈。尽管交互式定理证明器(ITPs)如 Lean,在形式化和验证数学证明方面发挥着重要作用,但构建这样的证明过程往往复杂且耗时,需细致入微的步骤和大量数学代码库。像 o1和 Claude 这样的先进大模型面对非形式化证明时,也容易出现错误,这突显了 LLM 在数学证明准确性和可靠性上的短板。

image.png

过去的研究尝试了使用 LLM 生成完整证明步骤,例如 LeanDojo,就是通过训练大模型在特定数据集上创建的定理证明器。然而,形式化定理证明的数据极为稀缺,限制了这种方法的广泛适用。另一项目 ReProver 则是针对 Lean 定理证明代码库 mathlib4优化的模型,虽然它涵盖了超过10万个形式化数学定理和定义,但仅限于本科数学的范围,因此在面对更复杂问题时表现不佳。

值得注意的是,数学研究的动态性给 AI 带来了更大挑战。数学家们通常同时或交替处理多个项目,比如陶哲轩就同时推进多个研究领域,包括 PFR 猜想和实数对称平均等。这些例子显示了当前 AI 定理证明方法的一个关键不足:缺乏一个能够在不同数学领域自适应学习和提升的 AI 系统,尤其是在 Lean 数据有限的情况下。

image.png

正因如此,LeanDojo 的团队创造了 LeanAgent,这是一个全新的终身学习框架,旨在解决上述难题。LeanAgent 的工作流程包括推导定理复杂度,以制定学习课程,通过渐进训练在学习过程中平衡稳定性与灵活性,并利用最佳优先树搜索来寻找尚未被证明的定理。

LeanAgent 与任何大模型结合使用,通过 “检索” 来提升其泛化能力。它的创新之处在于使用自定义动态数据库来管理不断扩展的数学知识,以及基于 Lean 证明结构的课程学习策略,助力学习更复杂的数学内容。

image.png

在应对 AI 的灾难性遗忘问题上,研究者采用了一种渐进训练的方法,使 LeanAgent 能够持续适应新的数学知识,同时不忘记先前的学习。这一过程涉及在每个新的数据集上进行增量训练,确保稳定性与灵活性达到最佳平衡。

通过这种渐进训练,LeanAgent 在证明定理方面的表现卓越,成功证明了162个尚未被人类解答的难题,尤其在抽象代数和代数拓扑的挑战性定理上大展身手。其在证明新定理的能力上比静态的 ReProver 高出11倍,且保持了对已知定理的证明能力。

LeanAgent 在定理证明的过程中表现出了渐进学习的特征,从简单的定理逐渐过渡到更复杂的定理,证明了它在数学知识掌握上的深度。例如,它证明了与群论和环论相关的基础代数结构定理,展现出对数学的深刻理解。总的来看,LeanAgent 以其强大的持续学习和改进能力,为数学界带来了令人兴奋的前景!

论文地址:https://arxiv.org/pdf/2410.06209

  • 相关推荐
  • 罗永浩谈自己一直屹立不倒的原因:骨子里讲道理 讲逻辑

    9月30日,快科技产品经理罗永浩发文回应预制菜争议。他表示自己并非反对预制菜本身,而是反对餐厅使用预制菜却不告知消费者,侵犯其知情权。他强调若真心反对预制菜,行业将面临危机,并透露自己曾销售预制菜,主张餐饮企业需明确告知使用情况,不能冒充现做菜品。业内人士认为,餐厅使用预制菜应主动说明,否则可能涉及消费欺诈。

  • 北京山谷:破解80后人生平衡难题的理想栖居地

    北京山谷项目精准回应80后群体在事业上升期面临的工作与家庭平衡难题,通过"近山+泉+医"规划理念,打造"周末通勤度假、带娃省心、父母照料无忧"的创新生活模式。项目以便捷交通实现"离尘不离城",配备亲子空间与生态康养环境,楼下医疗中心解决父母就医需求,防洪工程构建双重安全保障,为都市人创造了兼顾城市便利与自然宁静的理想居所。

  • 科技住宅大会:卡萨帝发布AI动态五恒空气系统破空气协同难题

    9月23日,首届科技住宅水生态大会在常州举行,聚焦“住好房子+用好系统”主题。会议指出,科技住宅已从单一设备智能迈入“智慧协同”新阶段,强调智慧、舒适、节能三大核心要素的系统化解决方案。卡萨帝在会上发布AI动态五恒空气系统,通过主动感知与协同调控能力,实现温度、湿度、洁净度等五维环境参数的动态管理,提供全流程自主运营。该系统以用户需求为核心,构建“最聪明、最舒适、最节能”三重体验,并依托精准设计、精细施工、精心服务三大标准,确保从方案制定到长效运维的全周期保障。此次发布标志着科技住宅从设备堆砌向系统融合的产业升级,推动行业价值重构。

  • ​OPPO Pad5官宣10月16日发布 首发ColorOS 16

    OPPO Pad5将于10月16日发布,搭载全新ColorOS 16系统,主打流畅体验。系统升级三大核心技术引擎,实现无缝动画效果,并首次将原生级流畅能力开放给第三方应用。硬件方面配备12.1英寸3K高刷屏和联发科天玑9400处理器,支持67W快充,兼顾高性能与长续航。针对海外用户优化虚拟键盘操作,提升切换效率。产品定位“丝滑板王”,旨在引领安卓平板体验新高度。

  • 鸿蒙智行9月交付新车52916台:全系累计交付突破95万台

    鸿蒙智行2025年9月延续强劲增长,全系交付新车52916台,累计交付突破95万台。成交均价稳居新势力榜首,实现量价齐飞。9月新车大定超11万台创新高。国庆期间推出15项全车检查、24小时救援等安心服务。华为与上汽合作首款SUV尚界H5上市,售价15.98万元起。至此鸿蒙智行形成"五界十车"产品矩阵,覆盖多元需求。余承东表示,鸿蒙智行正深度赋能中国智能电动汽车产业升级。

  • 卢伟冰听劝马上安排:小米17 16+1TB版本正式开售!5299元四色可选

    小米17标准版新增16+1TB版本,售价5299元,提供黑、白、雪山粉、冰融蓝四色可选。相比去年同版本的小米15定价更低,便宜200元。配置方面,搭载第五代骁龙8至尊版处理器,内置7000mAh电池,支持100W有线快充和50W无线快充,配备6.3英寸120Hz高刷屏及三摄系统。新增1TB版本据称是因用户反馈而快速响应。

  • 台风走了胶带却撕不掉了上热搜 网友支招解难题

    9月24日台风过后,广东居民清理防风胶带时,一名女子撕下胶带后窗户留下明显黄色胶印,焦急视频引发网络关注。网友纷纷分享清洁妙招:建议使用透明胶带避免留痕,或用酒精软化胶印后轻刮,温水浸泡后擦拭更温和。同时提醒注意安全,避免使用锋利工具划伤玻璃。事件展现网友热心与智慧,也提醒大家在应对自然灾害时需考虑后续清理工作,最终成为共享生活技巧的温馨时刻。

  • OPPO Find X9系列定档:10月16日发布

    OPPO宣布将于10月16日19:00发布Find X9系列,包括X9和X9 Pro两款手机,同时推出OPPO Pad5平板和OPPO Watch S智能手表。Find X9系列采用直屏设计,配备超大弧度边框,提升握持舒适度;首发全场景1nit明眸护眼屏,支持3840Hz超高频PWM调光;搭载哈苏四摄影像系统,大幅提升进光量;核心采用联发科天玑9500处理器,跑分超400万;全系配备7000mAh超大电池,Pro版达7500mAh。此外,Pad5主打流畅耐用,支持多任务处理;Watch S定位轻薄时尚,厚度不足9mm。

  • 远程办公隐私、信息安全如何保障?向日葵16安全体系全面解读

    向日葵16全新上线,以“全流程安全闭环”体系为核心,围绕被控端构建全方位防护。功能升级包括双重验证访问、IP黑名单、微信告警通知、远程操作记录追踪及敏感进程监控等,确保远程协助与自用设备安全。针对企业需求,提供事前防范、事中守护、事后追溯的灵活安全框架,支持精细化授权与水印策略。通过隐私屏、自动锁屏等功能强化隐私保护,让远程控制兼顾高效与可靠,成为安全可信的生产力工具。

  • 京东APP 16.0版本来了:号称颠覆传统购物方式

    在2025京东全球科技探索者大会上,京东宣布将于10月推出京东APP 16.0版本。 其搭载的智能搜索推荐功能爱购”,将前沿AI技术重构购物流程,号称实现对传统购物方式的颠覆性突破。 爱购”依托JoyAI大模型打造,采用语义可控生成式推荐模型OxygenRec与电商多模态理解大模型OxygenVLM作为快慢思考”结合的技术核心。 这一架构让APP能通过自然语言

今日大家都在搜的词: