国内首个官方大模型评测结果出炉！阿里云通义千问首批通过评测

2023-12-22 21:16 · 稿源：快科技

快科技12月22日消息，国内首个官方大模型标准符合性评测”结果公布。

阿里云通义千问成为首批通过评测的四款国产大模型之一，在通用性、智能性等维度均达到国家相关标准要求。

据悉，本次通过评测的首批大模型中，通义千问是唯一的开源模型，在全球拥有广泛的开发者用户和企业客户，其性能表现及安全性得到了大范围的公开检验。

12月1日开源后，通义千问72B在10个权威基准评测中创下开源模型最优成绩，并力压Llama2登顶海外最具权威性的HuggingFace排行榜。

此后又登上国内上海人工智能实验室OpenCompass榜首，成为业界公认的性能最强开源大模型。

目前，通义千问APP可在苹果和安卓各大应用商店中下载体验，提供文本对话、语音对话、文学分析、外语及文言文翻译、PPT大纲助手、小红书文案等几十项实用功能。

据了解，大模型标准符合性评测”由中国电子技术标准化研究院发起，旨在建立中国大模型标准符合性名录，引领人工智能产业健康有序发展。

该评测对外征集了学术界、产业界几十家头部单位意见，覆盖评估语言大模型通用性、智能性的38项具体评测维度，是基于官方大模型测试基准的权威评测。

（举报）

相关推荐

关键词：

国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

AI搜索时代，品牌若未出现在AI回答中就等于"不存在"。GEO（生成引擎优化）成为新战场，核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点：文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略：内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况，通过数据驱动优化策略。
GEO排名查询工具怎么用？手把手教你监测品牌在通义千问、Kimi等AI平台的推荐情况

AI时代催生GEO（生成引擎优化）新范式，正逐步取代传统SEO。GEO关注品牌在AI问答中的提及率、推荐频次与排名，通过优化内容结构提升AI引擎推荐权重。AIBase平台推出专业GEO监测工具，支持五大主流AI平台实时检测，提供竞品对比与优化建议，帮助企业量化品牌在AI生态中的可见度，已成为数字资产评估新标准。

GEO 生成引擎优化 AI搜索优化
国内首个！火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系，同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点，确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度，通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制，为数字化转型深水区企业提供选型优化依据，推动产业智能化进入精准量化新阶段。

数据智能体评测体系多模态数据
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
颜值溢价下的性能底色——微单颜值实力榜详细评测

本文横评佳能R50V、尼康Zf、富士X-T30 III、尼康Z30、松下GX9五款微单相机，聚焦颜值与性能平衡。佳能R50V以极简设计打破传统相机刻板印象，搭载6K超采4K视频、全像素双核AF等越级性能，重新定义高颜值创作工具标准。尼康Zf主打复古模块化设计，富士X-T30 III强化胶片模拟拨盘，二者在视频专业性与轻量化方面不及R50V全面。尼康Z30与松下GX9则因配置老旧或材质质感不足，在综合�
双十一电动牙刷怎么选？五款热品评测，牙龈敏感星人直接抄作业

第四次全国口腔健康调查显示，中国成人牙周健康率仅为9.1%，35-44岁居民牙结石检出率高达87.4%。随着国民口腔健康意识提升，电动牙刷正从“新兴产品”转变为“日常必需品”。市场持续扩大，各大品牌纷纷推出创新技术解决清洁问题。文章重点评测了锐舞气泡电动牙刷、徕芬扫振电动牙刷、飞利浦钻石3系HX5171、欧乐B iO系列及usmile Y30五款产品，从清洁技术、使用体验和护龈效果等维度分析。锐舞的气泡技术突破传统物理摩擦局限，实现97%高效清洁；徕芬采用扫振一体技术模拟巴氏刷牙法；飞利浦升级声波技术；欧乐B运用3D声波科技；usmile主打AI自适应系统。在护龈方面，锐舞的非接触清洁机制对敏感牙龈用户更友好。综合来看，电动牙刷技术已从参数竞争进入用户体验全面优化新阶段，消费者应根据自身口腔状况选择合适产品。

电动牙刷口腔健康双十一
2025年11月权威评测：除甲醛空气净化器品牌深度解析

随着家居环境健康意识的提升，空气净化器已成为新房入住的必备家电。然而，面对市场上琳琅满目的产品，消费者如何避免“宣传陷阱”，选到真正高效可靠的除甲醛产品?近日，国家家用电器质量监督检验中心联合中国室内环境监测工作委员会发布的《2025年度空气净化器除甲醛性能专项调查报告》给出了权威答案。报告显示，在抽检的35款主流产品中，仅28.6% 的甲醛CADR值超

空气净化器除甲醛 CADR值
大模型+反诈+算力三重突破腾讯云三项成果闪耀金融科技应用场景大赛

10月30日，2025金融街论坛年会金融科技大会公布“金融科技应用场景大赛”终评结果。腾讯云“金融反电诈治理方案”与“基于TCS的AI异构算力管理平台”凭借技术创新性与场景落地能力，从全国89家机构的280个项目中脱颖而出，双双荣获“十佳应用奖”。腾讯混元大模型信贷助手方案获“探索实践奖”。三大方案在金融风控、算力基座及大模型应用三个关键领域展现突出优势，获专家团高度认可。大赛自2021年启动，已成为金融科技领域极具影响力的赛事平台。

金融科技应用场景大赛腾讯云
PCEVA深度评测：忆联AE531 QLC SSD以高效稳定，从容应对多元应用场景挑战

PCEVA对忆联首款QLC商用消费级SSD AE531进行深度评测。该产品在性能测试中全面超越同级，顺序读写达6817/5680MB/s，SLC缓存策略提供约110GB空间，60℃满载无降速。跨平台兼容性与低TCO设计满足企业降本增效需求，验证了QLC在商用场景下的稳定优势。

SSD评测 QLC性能商用存储

今日大家都在搜的词：

热文

3 天
7天

国内首个官方大模型评测结果出炉！阿里云通义千问首批通过评测

国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

GEO排名查询工具怎么用？手把手教你监测品牌在通义千问、Kimi等AI平台的推荐情况

国内首个！火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

易鑫正式发布汽车金融行业首个Agentic大模型

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

颜值溢价下的性能底色——微单颜值实力榜详细评测

双十一电动牙刷怎么选？五款热品评测，牙龈敏感星人直接抄作业

2025年11月权威评测：除甲醛空气净化器品牌深度解析

大模型+反诈+算力三重突破腾讯云三项成果闪耀金融科技应用场景大赛

PCEVA深度评测：忆联AE531 QLC SSD以高效稳定，从容应对多元应用场景挑战

今日大家都在搜的词：

热文

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

华为Mate 70 Air维修备件价格公布：换主板2499元

OPPO Reno15系列定档11月17日发布

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

OPPO Reno15系列官宣11月10日发布

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机