首页 > 业界 > 关键词  > 正文

SuperCLUE:GPT-4 Turbo中文基准评测领先国内模型超过30分

2023-11-09 14:19 · 稿源:站长之家

站长之家(ChinaZ.com)11月9日 消息:GPT-4Turbo 是 OpenAI 发布的最新 ChatGPT 模型,具有128K 上下文和训练数据知识截止至2023年4月。

SuperCLUE表示,GPT-4Turbo在 SuperCLUE-OPEN 中文通用大模型综合性评测基准上,取得了总分98.4,八项基础能力满分,领先国内最强模型超过30分。

从定量和定性分析来看,GPT-4Turbo 在各项任务上表现出色,具有强大的计算能力、代码理解、逻辑推理、知识百科、生成创作等能力。

微信截图_20231109141209.png

根据 SuperCLUE 的评测结果,GPT-4Turbo 在中文基准上表现出了非常强大的能力。

以下是一些主要的总结:

1. GPT-4Turbo 在 SuperCLUE-OPEN 基准上取得了98.40的高分,较上一代 GPT4有10.33分的提升。

2. 在十项基础任务中,GPT-4Turbo 有8项能力取得了满分,包括知识百科、代码、逻辑推理、工具使用等。

3. 与国内大模型相比,GPT-4Turbo 在综合能力上处于绝对领先,总分领先国内最强模型30分以上。

4. GPT-4Turbo 支持更长的输入文本,每次可以输入300多页的内容,相当于10万汉字。

5. GPT-4Turbo 对函数调用、指令和 JSON 模式进行了调优,提高了模型的性能。

举报

  • 相关推荐
  • 从温室气体核查到产品LCA,SUPER DRY 干霸干燥剂系统性推进低碳转型

    11月6日,SUPER DRY干霸干躁剂在第八届中国国际进口博览会上,为其三款核心产品获得SGS颁发的生命周期评价(LCA)声明书。该认证覆盖氯化钙、硅胶和矿物干躁剂,标志企业迈出产品全生命周期环境管理关键一步。公司表示将基于LCA报告优化设计、降低碳足迹,并携手合作伙伴推动低碳转型,提升国际市场竞争力与品牌声誉,践行可持续发展承诺。

  • Qwen用开源逆袭GPT的故事,千问APP要再干一遍

    Qwen模型逆袭GPT的策略,阿里准备再用一次。 2018年,OpenAI发布了自己的第一个模型GPT1,占据了技术先机,随后变得越来越封闭。在大洋彼岸,阿里几乎同一时间着手大模型研究,到2023年推出“通义千问”时,则选择了一条完全不同的路径:直接开源模型,允许开发者免费使用、改进和集成。 这个策略让Qwen逐步积累起规模,做到了如今全球开发者基于它发布了17万个衍生模型�

  • AI日报:百度发布文心5.0;可灵2.5Turbo模型上线“首尾帧”功能;微博推出 VibeThinker-1.5B

    本期AI日报聚焦多项技术突破:OpenAI推出GPT-5.1,提升对话自然度与响应速度;百度发布原生全模态大模型文心5.0,支持跨文本图像生成;微博开源VibeThinker-1.5B模型,以低成本实现高效推理;可控视频生成模型新增首尾帧控制功能;李飞飞团队推出商用3D世界生成工具Marble;东北大学开源多语言翻译模型支持60种语言;谷歌Gemini语音功能升级实现更自然交互;阿里启动“千问”项目对标ChatGPT,全面布局C端AI应用竞争。

  • AI日报:xAI推出Grok 4.1;OceanBase发布首款AI数据库seekdb;Kimi K2成功接入Perplexity

    本期AI日报聚焦多项技术突破:蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用;xAI推出免费Grok 4.1模型显著提升质量与速度;Poe推出200人群聊功能支持多模型协作;OceanBase发布首款AI数据库seekdb实现混合搜索;国产模型Kimi K2接入Perplexity展现国际竞争力;谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%;ElevenLabs升级为一站式内容生成平台;昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite,用户拍照即可自动完成任务。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • OpenAI发布GPT-5.1:情商大涨 本周开始推送

    OpenAI正式推出GPT-5.1模型,以“智商与情商深度融合”为核心亮点。新模型优化推理能力,强化情绪价值与个性化交互,包含Instant与Thinking两大核心版本:Instant首次引入自适应推理功能,针对复杂任务延长思考时间,简单问题保持极速响应;Thinking版本智能分配思考时长,提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型,支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度,防范拟人化风险。付费用户可保留旧版三个月过渡期。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • Creators’ App迎来重大更新

    索尼与分秒帧联合推出云端影像创作平台ICE-Cloud,集成索尼先进影像技术与高效云端协作能力,为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用,实现素材自动上传、云端管理、在线审片和项目协同,打破时空限制,提升创作效率。通过Creators’ App连接相机与云端,实现即拍即传、异地实时协作,致力于打造新一代创意工作流。

今日大家都在搜的词: