首页 > AI头条  > 正文

AI 科学研究新基准:FrontierScience 评估模型推理能力

2025-12-17 16:17 · 来源: AIbase基地

在科学研究中,推理能力至关重要。科学家们不仅仅是回忆事实,还需提出假设、测试并修正这些假设,并在不同领域之间综合思想。随着 AI 模型能力的提升,如何评估它们在科学研究中深度推理的能力成为了一个重要问题。

image.png

最近,AI 模型在一些重大领域取得了里程碑式的成就,包括在国际数学奥林匹克和信息学奥林匹克比赛中表现优异。同时,GPT-5等先进模型正在有效加速真实的科学工作流程。研究人员利用这些系统进行跨学科的文献搜索以及复杂数学证明的工作,显著缩短了从几天或几周到几小时的研究时间。

为进一步评估 AI 在科学研究中的能力,我们推出了一个新基准 ——FrontierScience。这一基准专注于评估在物理、化学和生物等领域的专家级科学推理能力。FrontierScience 包含了数百个经过专家验证的难题,并设有两个问题追踪:奥林匹克版和研究版,旨在分别测量奥林匹克风格的科学推理能力和真实世界的科学研究能力。初步评估结果显示,GPT-5.2在 FrontierScience-Olympiad 和 Research 两个模块中的表现优于其他模型。

具体而言,GPT-5.2在奥林匹克模块中得分77%,在研究模块中得分25%。尽管目前的模型已经能够支持结构化推理的研究环节,但在开放式思维能力方面仍有待提升。当前,科学家们利用这些模型加速研究流程,但在问题框架和验证方面仍需依赖人类的判断。未来,我们将继续完善 FrontierScience 基准,并扩大其应用领域,以帮助模型成为科学发现中的可靠伙伴。

划重点:  

🔍 FrontierScience 是一个新推出的基准,旨在评估 AI 在科学领域的推理能力。  

📊 初步评估显示,GPT-5.2在科学推理能力上表现突出,但仍需提升开放式思维能力。  

🚀 AI 模型的进步正在加速科学研究流程,未来将进一步优化评估基准与扩展应用领域。

  • 相关推荐
  • AI日报:千问全面接入阿里生态;百度文心ERNIE-5.0-0110正式发布;机器人租赁平台擎天租完成融资

    本期AI日报聚焦多项AI领域新进展:百度发布文心大模型ERNIE-5.0-0110,数学能力全球第二;阶跃星辰开源语音模型Step-Audio-R1.1获全球评测第一;千问App全面接入阿里生态,上线超400项AI办事功能;机器人租赁平台“擎天租”完成融资,创新商业模式;中国电信发布生成式视频压缩技术GVC,压缩率达0.02%;国产手机厂商关注AI实体按键,荣耀Magic8先行;字节跳动加速布局AI硬件生态,覆盖耳机、眼镜等;OpenAI推出网页翻译工具,直接对标Google翻译。

  • 高能更高效,YOUMAGIC舒立缇以科学疗效评估体系重塑行业信任基石

    1月10日,四川省整合医美科技发展研究会主办的“智慧医美整合发展分会成立大会暨学术会议”在成都召开。会议聚焦医美行业创新、规范、融合、协同发展,四川大学华西医院文翔教授发表主题演讲,系统介绍了其团队采用多种无创技术对YOUMAGIC舒立缇射频抗衰疗效进行的量化评估研究。研究通过超声、双光子显微成像、皮肤弹性检测等设备,进行了长达6个月的随访,结果显示舒立缇具备“高能有效+精准安全”的临床实力,有效提升了面部皮肤厚度、弹性及胶原密度,且治疗安全性高。该研究为射频抗衰疗效评估提供了科学、可量化的客观标准与实践范本,推动了行业向科学化、标准化发展。

  • AI日报:实时世界模型 PixVerse R1发布;Vidu发布AI一键生成MV功能;可灵AI ARR达2.4亿美元

    本期AI日报聚焦多项AI领域突破:爱诗科技发布全球首个通用实时世界模型PixVerse R1,实现虚拟世界实时交互;Vidu推出AI一键生成MV功能,打造“虚拟制片厂”;MiniMax发布编程智能体基准测试OctoCodingBench;快手可灵AI年化收入达2.4亿美元;智谱联合华为开源多模态模型GLM-Image,全链路跑通国产芯片;百川智能发布医疗大模型Baichuan-M3;谷歌重构电商未来,推出Agentic AI购物系统;谷歌开源医疗AI模型MedGemma 1.5与语音识别模型MedASR。

  • 全球首个通用实时世界模型PixVerse R1发布 视听媒体进入交互时代

    爱诗科技发布全球首个支持1080P实时生成视频模型PixVerse R1,实现“所想即所见、所说即所现”的实时交互体验。该模型基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术,将视频生成延迟降至“即时”响应,标志着AIGC视频生成从“静态输出”迈入“实时交互”新阶段。

  • 忆联消费级PCIe 5.0力作AM6D0:11.3GB/s的性能王者,高效创意随行

    忆联推出消费级PCIe 5.0固态硬盘AM6D0,顺序读写速度达11.3GB/s和10.6GB/s,随机读写性能达1,700K和1,100K IOPS,专为专业创作者、硬核玩家和高端用户设计。该产品具备深度节能模式,整盘功耗低于2.5mW,数据可靠性高(UBER达1E-16),并广泛兼容主流硬件平台与操作系统。通过多项智能管理特性,AM6D0实现了高性能、高能效与稳定输出的综合体验,成为驱动数字创意生产力的坚实存储基石。

  • 罗福莉回应AI天才少女标签:只是一个普通的研究者

    近日,北京大学更新了一期北大校友、小米MiMo大模型负责人罗福莉的最新访谈视频。视频中,罗福莉针对外界贴在她身上的“AI天才少女”标签作出回应。她坦言,为了获取关注度和注意力,人们往往会给某部分人打上刻板且具讨论话题性的标签,但她很快便不将其放在心上,认为自己只是一名普通平凡的研究者。

  • 极光祝贺智谱成为全球首家大模型上市公司:继续以全球化消息与认证能力护航 AI 应用规模化

    极光祝贺智谱华章科技股份有限公司(简称“智谱”)在香港联交所主板上市,成为全球首家以通用人工智能(AGI)基座模型为核心业务的上市公司。智谱本次全球发行价为每股116.20港元,募集资金约43.5亿港元。极光表示,随着AI商业化加速,企业对高并发消息触达、身份认证等安全合规能力的需求持续提升。极光将继续通过全球化产品与交付能力,为包括智谱在内的众多AI企业提供用户增长与账号安全支持。

  • AI智能体时代,企业还需要SCRM吗?

    2025年,AI正重塑各行业业务模式,企业纷纷引入AI以提升效率。面对多样化的AI工具,SCRM(社交客户关系管理)对高客单价企业依然必要。其核心价值在于:一、系统梳理业务流程,统一管理获客、转化、成交、服务等环节,帮助企业识别并优化关键节点;二、借助AI助手等工具,自动、精准地收集并统一业务数据,为管理者提供实时业务洞察,辅助科学决策;三、通过AI能力赋能一线员工,自动完成客户资料维护、跟进记录生成等工作,减轻负担,复制最佳实践,提升团队整体效率与转化率。在AI时代,真实、完整的业务数据是AI应用的基础,SCRM正是企业数字化转型的“基建工程”,能帮助企业沉淀高质量数据资产,更好地借助AI优化业务,构建竞争优势。

  • 即构推出AI音视频能力矩阵 助力应用突围增长

    如今,移动应用市场竞争进入了存量博弈新阶段,应用内的新玩法复制成本低,单靠独创模式难以吸引用户留存。Sensor Tower数据显示,全球应用商店双寡头垄断格局稳固,头部应用占据超60%用户时长,中小应用突围愈发艰难。行业增长逻辑已转向内容质量与优质体验,音视频质量低下可能导致用户留存与转化显著下滑。尤其是在直播语聊、网课、电商、音视频创作工具等高频�

  • 名创优品MINISO拓展乐园系店态,MINISO FRIENDS成布局城市潮流核心轻量化先锋

    名创优品旗下创新业态MINISO FRIENDS华南首店在深圳宝安海雅缤纷城开业。该店以“迷你IP乐园”和兴趣消费为定位,通过沉浸式IP场景与商业空间结合,致力于打造深圳青年潮流生活新地标。店内融合全球热门IP与自有IP“YOYO”,覆盖IP系列达70个,SKU超4000种,IP产品占比超80%。开业当天客流密集,展现出其作为潮流消费地标的吸引力。此次开业是名创优品构建“IP平台”的关键举措,也推动了其“乐园系”店态布局的完善与升级。未来,名创优品将继续依托“兴趣消费”战略,推动MINISO FRIENDS等创新店态在全国核心城市的布局。

今日大家都在搜的词: