首页 > AI头条  > 正文

技术评测报告显示:Claude 3.5 Sonnet模型达到了专业博士水平

2024-06-24 10:24 · 来源: AIbase基地

Anthropic的最新模型Claude3.5Sonnet在最近的技术评测中展现了令人瞩目的性能,其表现甚至超过了专业博士水平。在Graduate-Level Question Answering(GPQA)测试中,Claude3.5Sonnet取得了67.2%的得分,这不仅是大语言模型在此类评估中首次突破65%的成绩,而且标志着它在理解和回答高级科学知识问题上达到了新的高度。

GQrRBTfa0AAwXFe.jpg

GPQA作为一个衡量语言模型在研究生层级科学知识问答能力的基准测试,涵盖了一系列复杂且深奥的问题,对模型的推理能力和知识整合能力提出了较高的要求。在这一挑战性测试中,普通博士学位持有者的平均得分约为34%,而专门领域的博士学位持有者平均得分为65%。值得一提的是,GPQA得分达到60%的语言模型,其智能水平大约相当于IQ150。

GQrRofibYAAK9Mx.jpg

尽管目前尚无GPT-4o和GPT-4T在GPQA评估中的具体数据,但根据现有信息推测,Claude3.5Sonnet的表现似乎优于这两个模型。在其他相关评估中,如0-shot CoT评估,Claude3.5Sonnet的得分也高于GPT-4o(53.6%)和GPT-4T(48.0%),进一步证明了其在语言理解和问题解答方面的领先地位。

Anthropic的这一成就不仅展示了Claude3.5Sonnet的强大能力,也为大语言模型在处理高级知识问答任务上树立了新的标杆。随着技术的不断进步,未来这些模型在各个领域的应用潜力无疑将更加广阔。

  • 相关推荐
  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • 2025年手机影像评测报告:5000元档成谁比较强?

    2025年拍照手机推荐:vivo X300Pro凭借2亿像素蔡司超级长焦主摄、行业顶级CIPA5.5级防抖系统及萤石玻璃镜片,实现演唱会远景清晰捕捉与手持星空稳定拍摄。三焦段变焦闪光灯覆盖24-85mm经典人像焦段,通过光斑融合技术实现均匀补光,夜拍告别死黑过曝。DXOMARK评分有望突破177,支持4K60fps电影人像视频。配合荣耀Magic7 Pro的真实色彩模式、小米17Pro的徕卡复古风格,为5000元预算用户提供多元选择,其中vivo X300Pro以全能旅拍体验成为闭眼入标杆。

  • 2025年手机影像评测报告:5000元档成谁比较强?

    2025年拍照手机推荐:vivo X300Pro凭借2亿像素蔡司超级长焦主摄、CIPA5.5级防抖及萤石玻璃镜片,实现演唱会远景清晰捕捉与手持星空稳定拍摄。三焦段闪光灯覆盖24-85mm人像焦段,夜景光线自然层次丰富。DXOMARK评分有望突破177,支持4K60fps电影人像视频。荣耀Magic7Pro以真实色彩见长,小米17Pro主打徕卡复古胶片风格。预算5000元首选vivo X300Pro(预估国补优惠4799元起),堪称旅拍闭眼入的标杆之作。

  • 深圳国际车展 | 见证中国顶尖水平模拟赛车竞技,MOZA两大年度系列赛事圆满落幕

    2025年10月1日,MOZA品牌在深圳国际车展成功举办两大年度模拟赛车赛事总决赛。"MOZA&CTCC大学生模拟赛车锦标赛"吸引全国76所高校87支车队参赛,北京石油化工学院车队刘东赫凭借稳定发挥夺冠;"MOZA模拟赛车全国城市联赛"覆盖24座城市59支车队,北京E2C车队尹正逆转夺冠。赛事采用专业模拟设备,总奖品价值超13万元。MOZA持续为赛车爱好者提供竞技平台,2025赛季圆满落幕,2026新赛季即将启航。

  • 2025旅行拍照手机推荐:专业评测与甄选选购

    vivo X300 Pro通过自研影像芯片V3与天玑9500深度协同,首发4K 60fps电影人像视频与三焦段变焦闪光灯系统,覆盖24/50/85mm人像焦段,85mm亮度提升60%。主摄搭载定制LYT-828传感器与云台防抖,实现100dB超动态范围。创新提出“影像超能效NPU”,提升追焦与快门响应。该机在演唱会、夜景、旅行等场景下可智能补光,解决传统拍摄痛点,重新定义移动影像边界。

  • 腾讯悄悄上线了“Claude Code”,居然还支持微信登录。

    ​昨晚,腾讯发了他们的CodeBuddy Code,正式也加入命令行编程Agent战场。 说实话,CodeBuddy这产品,真的有点玄学在身上的。 我之前就当个新闻写,写了两次,一次插件,一次IDE,两次都快10w+,尼玛。。。

  • 沃兰迪:以冠军基因,定义专业体考体测行业新标杆

    沃兰迪深耕田径赛道十余年,是中国首个从专业田径赛场切入体测体考的品牌。其核心策略是专注田径领域,通过国际田联认证产品、签约省队供应商及冠军同款等硬核资质,将专业赛场技术下沉至体测场景。凭借火箭气垫跑鞋等爆款,实现电商平台销量霸榜,并助力超10万考生体测满分。这种“从赛场到考场”的专业路径,与安踏、李宁等大众运动品牌的全场景覆盖模式形成

  • 南卡QMic麦克风重磅发布:以专业声学革新,重塑领夹麦行业格局

    南卡发布全新旗舰领夹麦克风QMic,凭借录音棚级高清音质与行业领先的AI深度降噪技术,解决了传统麦克风在复杂环境中音质不纯、噪声干扰、爆音失真等痛点。其搭载VLA人声建模引擎与AI-DNN2.5降噪系统,实现98%人声还原度与智能环境噪声分离,三重防爆音专利技术将爆音干扰削减90%以上。双核DSP架构支持毫秒级低延迟与250米超远距离稳定传输,适配短视频、直播、户外创作等多场景需求。QMic以软硬件协同创新重新定义领夹麦克风标准,推动行业从“能用”向“专业、稳定、智能”升级。

  • TCL华星助力产业规范,《Mini LED室内商用显示屏》团体标准重磅发布

    2025年7月15日,《Mini LED室内商用显示屏》团体标准正式发布,标志着Mini LED技术从分散发展迈向统一规范的关键跨越。该标准由深圳照明与显示工程行业协会等机构牵头,汇聚近50家产业链企业智慧,构建了科学、系统的质量评估与性能规范体系。通过明确产品定义、分类维度、性能指标升级及检测方法,重点解决行业长期存在的技术指标不统一、质量参差不齐等痛点。标准实施将推动产业链协同,预计带动市场规模年增速超30%,助力企业提升高端产品竞争力,并为客户采购提供清晰依据,促进Mini LED在会议大屏、数字标牌等商用场景加速落地,引领产业向更高一致性、更低功耗演进。

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

今日大家都在搜的词: