香港中文大学发布全面中文大语言模型评测CLEVA

2023-10-17 09:29 · 稿源：站长之家

核心要点:
香港中文大学的研究团队发布了全面的中文大语言模型评测方法，已被EMNLP2023System Demonstrations录取。
该评测方法包含31个任务和多种评测指标，覆盖了84个数据集，着重关注准确性、鲁棒性、公平性等多个维度。
评测方法还提供多样的提示模版，降低数据污染风险，以及提供清晰的操作界面，可供研究团队使用和交互评测。

站长之家（ChinaZ.com）10月17日消息:香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法，这一方法已经被EMNLP2023System Demonstrations录取。这一评测方法名为CLEVA，是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的，与上海人工智能实验室合作研究。

CLEVA的目标是为中文大语言模型提供全面的评测，覆盖多个任务和多个评测指标，以更好地理解和评价这些模型的能力。

论文地址:https://arxiv.org/pdf/2308.04813.pdf

这一评测方法包含了31个任务，其中包括11个应用评估和20个能力评测任务，共涵盖了来自84个数据集的370，000多个中文测试样本。这是过去同类工作中样本数量最多的，为全面评测提供了更多的数据支持。

CLEVA不仅关注传统的准确性指标，还引入了鲁棒性、公平性、效率、校准与不确定性、偏见与刻板印象以及毒性等多维度的评测指标，以更全面地评价大语言模型的性能。

为了确保评测的可比性，CLEVA为每个评测任务准备了一组多个提示模板，使所有模型都使用相同的提示模板进行评测。这有助于公平比较模型能力，同时还可以分析模型对不同提示模板的敏感程度，为模型的下游应用提供指导。

此外，CLEVA还采取了多种方法来降低数据污染的风险，包括采用新数据和不断更新的测试集。

这一全面的中文大语言模型评测方法旨在提供更可信的评测结果，为学术界和工业界提供更准确的模型能力认知。研究团队已经使用CLEVA评测了23个中文大模型，并计划持续评测更多的模型。其他研究团队也可以通过CLEVA网站提交和对接评测结果，从而促进大模型能力的认知和评测。

（举报）

相关推荐

关键词：

CLEVA

决战东方之巅！AGON爱攻迅猛龙CS24A以巅峰性能助力CAC 2025战火点燃

完美世界电竞主办的CAC2025反恐精英亚洲邀请赛将于10月14日在上海举行，赛事升级为亚洲CS领域最高规格竞技殿堂，汇聚全球五大赛区16支顶尖战队角逐百万美元冠军奖金。AGON爱攻作为官方合作伙伴，推出专为CS打造的迅猛龙联名定制显示器CS24A，凭借610Hz超高刷新率与0.3ms极速响应等专业配置，助力选手稳定发挥。本届赛事还将通过“完美电竞合作伙伴联盟”构建完整电竞生态闭环，为亚洲巅峰对决提供坚实硬件支持。

反恐精英亚洲邀请赛 CAC2025 电竞赛事
Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me
荣耀Magic8系列暨MagicOS10发布会定档10月15日

今日，荣耀官方正式宣布，荣耀Magic8系列暨MagicOS10发布会定档10月15日。届时，备受瞩目的新一代旗舰荣耀Magic8系列将闪亮登场，该系列成为首批搭载第五代骁龙8至尊版芯片的旗舰机型之一。

荣耀Magic8系列第五代骁龙8至尊版天青釉配色
荐“快”钱不香了？MCN集体转向，死磕“好内容”

钱塘江大潮还未到来，一场来自内容创作者的盛宴率先掀起了热潮。 9月20日，抖音一年一度与创作者沟通的集会“2025抖音创作者大会”在浙江省海宁市盐官潮乐之城举办。本届抖音创作者大会以“创作常新，热爱长存”为主题，吸引了330多家MCN机构到场参加，共同探讨内容创作行业的发展趋势与未来机遇。在内容行业面临转型升级的关键时刻，面对创作者及MCN机构最为�

文章搜索核心标签内容创作
男子假期上高速被收费真相哭笑不得：5座车放了8座车的ETC

国庆假期期间，高速免费通行政策本应让广大车主享受出行便利，然而，一位车主却遭遇了意外的“扣费风波”。事发当日，这位车主驾驶着自己的5座小车，心情愉悦地驶向高速出口。然而，就在即将驶出高速时，ETC系统却发出了扣费提示音，让原本期待免费通行的他瞬间愣住。明明处于国庆免费时段，为何会突然扣费?难道是政策临时调整，还是自己的车辆存在特殊情况?

高速免费通行 ETC扣费国庆假期
想释放多网卡带宽？银河麒麟V11的MPTCP方案来了

本文介绍银河麒麟操作系统V11的MPTCP解决方案，通过多路径TCP协议聚合多网卡带宽，实现数据传输速度倍增和链路故障无缝切换。方案提供内核级原生支持，部署简单，兼容主流应用，显著提升网络性能与可靠性，有效解决单网卡带宽瓶颈和多网卡资源闲置问题，为高吞吐业务场景打造高效网络传输新引擎。

多路径TCP 带宽优化网络传输
灵犀互娱多元产品亮相CICF，展现广东游戏产业竞争力

2025年CICF×AGF动漫游戏盛典在广州举办，汇聚超1000个全球顶尖动漫游戏IP，展出周边产品超7000款。育碧、腾讯游戏、灵犀互娱等厂商参展，提供新作试玩。展会凸显广东游戏产业活力，2024年营收达2604亿元，海外收入增长9.9%。灵犀互娱等企业凭借多元化产品及出海表现，展现中国游戏全球竞争力与传统文化传播新路径。

动漫游戏展游戏博览会 IP周边产品
男子豪饮8瓶啤酒膀胱劈裂出6cm巨大破口医生提醒：饮酒要适量

近日，陕西西安，一男子因连喝8瓶啤酒，不幸遭遇了一场紧急修补手术。原来，在手术前一天，男子和朋友聚餐时，推杯换盏间不知不觉喝下了8瓶啤酒。不料，次日凌晨，男子被腹部一阵疼痛惊醒，虽然他发现自己尿意十足，却仅有几滴排出。家人紧急将他送往医院，经医生检查后发现，男子腹腔内存在大量不明积液！医生诊断为膀胱破裂，弥漫性腹膜炎、急性肾损伤”

膀胱破裂饮酒过量紧急手术
vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

在2025年vivo开发者大会上，vivo正式发布自研蓝河操作系统3。该系统主打全链路智慧能力，基于轻量、模块化设计，将完整AI方案便捷部署至不同设备。即将发布的vivo WATCH GT 2首发搭载，升级智慧体验。系统内置视觉、听觉及感知唤醒等能力，原生支持AI识别、降噪等功能，并引入蓝心智能，支持问答、语音识别等。流畅度方面，搭载蓝河流畅引擎，实测资源消耗降低60%，绘制效率提升36%，调度切换开销下降58%，资源占用减少40%。

vivo 蓝河操作系统3 BlueOS
第一！世纪华通旗下Century Games登顶全球Top50手游商

知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单，世纪华通旗下Century Games从去年第7位跃居榜首，创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察：既实现《Whiteout Survival》等长线产品稳定运营，又凭借《Kingshot》等新作打造跨品类爆款，形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率，构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元，同比增长85.5%，印证了其全球化布局与长效发展潜力。

全球游戏公司排名 Century Games

今日大家都在搜的词：

热文

3 天
7天

香港中文大学发布全面中文大语言模型评测CLEVA

决战东方之巅！AGON爱攻迅猛龙CS24A以巅峰性能助力CAC 2025战火点燃

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

荣耀Magic8系列暨MagicOS10发布会定档10月15日

荐“快”钱不香了？MCN集体转向，死磕“好内容”

男子假期上高速被收费真相哭笑不得：5座车放了8座车的ETC

想释放多网卡带宽？银河麒麟V11的MPTCP方案来了

灵犀互娱多元产品亮相CICF，展现广东游戏产业竞争力

男子豪饮8瓶啤酒膀胱劈裂出6cm巨大破口医生提醒：饮酒要适量

vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

第一！世纪华通旗下Century Games登顶全球Top50手游商

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

雷军：小米17系列首销权益延续至10月31日

京东双11今晚开启：现货开卖官方直降低至一折

iQOO 15官宣：10月20日发布

三星W26折叠屏手机官宣10月11日发布

新款智界R7/S7上市44天大定破38000台

荣耀Magic8系列暨MagicOS10发布会定档10月15日

iQOO 15搭载自研电竞芯片Q3 能效提升40%

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

京东双11今晚开启：现货开卖官方直降低至一折

腾讯混元图像3.0登顶LMArena榜一

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

iQOO 15官宣：10月20日发布

三星W26折叠屏手机官宣10月11日发布

站长商机