首页 > 业界 > 关键词  > CLEVA最新资讯  > 正文

香港中文大学发布全面中文大语言模型评测CLEVA

2023-10-17 09:29 · 稿源:站长之家

核心要点:

  1. 香港中文大学的研究团队发布了全面的中文大语言模型评测方法,已被EMNLP2023System Demonstrations录取。

  2. 该评测方法包含31个任务和多种评测指标,覆盖了84个数据集,着重关注准确性、鲁棒性、公平性等多个维度。

  3. 评测方法还提供多样的提示模版,降低数据污染风险,以及提供清晰的操作界面,可供研究团队使用和交互评测。

站长之家(ChinaZ.com)10月17日 消息:香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法,这一方法已经被EMNLP2023System Demonstrations录取。这一评测方法名为CLEVA,是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的,与上海人工智能实验室合作研究。

CLEVA的目标是为中文大语言模型提供全面的评测,覆盖多个任务和多个评测指标,以更好地理解和评价这些模型的能力。

image.png

论文地址:https://arxiv.org/pdf/2308.04813.pdf

这一评测方法包含了31个任务,其中包括11个应用评估和20个能力评测任务,共涵盖了来自84个数据集的370,000多个中文测试样本。这是过去同类工作中样本数量最多的,为全面评测提供了更多的数据支持。

CLEVA不仅关注传统的准确性指标,还引入了鲁棒性、公平性、效率、校准与不确定性、偏见与刻板印象以及毒性等多维度的评测指标,以更全面地评价大语言模型的性能。

为了确保评测的可比性,CLEVA为每个评测任务准备了一组多个提示模板,使所有模型都使用相同的提示模板进行评测。这有助于公平比较模型能力,同时还可以分析模型对不同提示模板的敏感程度,为模型的下游应用提供指导。

此外,CLEVA还采取了多种方法来降低数据污染的风险,包括采用新数据和不断更新的测试集。

这一全面的中文大语言模型评测方法旨在提供更可信的评测结果,为学术界和工业界提供更准确的模型能力认知。研究团队已经使用CLEVA评测了23个中文大模型,并计划持续评测更多的模型。其他研究团队也可以通过CLEVA网站提交和对接评测结果,从而促进大模型能力的认知和评测。

举报

  • 相关推荐
  • CCF HPC China 2025 | KunLun HPC解决方案赋能多行业创新升级 并获全国产异构创新HPC解决方案奖

    8月13-16日,第21届CCF全国高性能计算学术年会在鄂尔多斯召开。本届大会以"绿动计算 超智融合"为主题,汇聚顶尖学术阵容,展示全产业链成果与前沿趋势。河南昆仑技术有限公司重点展示双生态硬件平台、极致性能软件平台、应用迁移调优服务等HPC全栈解决方案。其KunLun HPC解决方案实现100%国产化,兼容x86设备,具备东西方双生态兼容、高性能、高能效等五大特点,并获全国产异构创新HPC解决方案奖。昆仑技术同期发布KunLun V2系列服务器产品,助力科研转化和行业智能化升级。多位专家在主题论坛分享国产超算软件生态建设经验,强调需持续投入构建自主可控的超算软件生态。昆仑技术表示将持续深耕高性能计算领域,推动行业向智能高效方向发展。

  • 主论坛前瞻|「拥抱AI变革,点燃算网引擎」:ODCC邀您探索算网新世界

    2025年第十二届开放数据中心大会(ODCC)将于9月9-11日在北京举行。大会聚焦AI变革与算力发展,围绕算力、网络、能源、制冷、运维等全链路协同展开讨论。华为、三星、博通等企业将分享最新实践,探讨液冷技术、智能运维等关键议题。主论坛将于9月10日举行,发布年度成果并解读技术趋势。大会旨在推动算力产业标准化发展,为AI时代提供系统性解决方案。

  • PCEVA权威评测:忆联UH812a登顶PCIe 5.0企业级SSD巅峰

    PCEVA对忆联PCIe 5.0企业级固态硬盘UH812a进行全面评测,该产品顺序读取速度达14.9GB/s,4K随机读取性能达3569K IOPS,延迟低至55μs,在Oracle数据库、虚拟化等企业级场景中表现出卓越的稳定性和兼容性。通过SNIA SSS PTS测试,其性能超出标称值,同时通过了英特尔BKC认证及中子辐照测试,展现出高可靠性与抗辐射能力。

  • 忆联新一代eMMC 5.1产品:容量倍增、功耗降低18%,以卓越TCO重塑智能终端存储体验

    忆联新一代eMMC5.1产品针对智能终端高清化、强交互性需求,推出256GB大容量版本,性能功耗双升级。关键优势:1)顺序读写速度达330/290MB/s,随机读写33K/30K IOPS;2)功耗降低18%,优化电源管理;3)采用3D NAND和动态SLC缓存技术,写入寿命提升50%至200TBW;4)创新分级睡眠机制,非活跃状态自动切换至微安级模式。通过"大容量+高能效+长寿命"三角模型,显著降低用户TCO,助力智能设备厂商构建可持续发展生态。

  • CleanMyMac上线云存储清理功能

    CleanMyMac推出全新"云存储清理"功能,支持iCloud和OneDrive两大主流云服务。该功能提供统一可视化界面,可批量删除云端和本地的重复文件,或仅解除同步保留云端文件。通过滚动列表和可视化图谱两种模式,帮助用户高效管理存储空间。所有操作均在本地完成,确保数据安全。软件提供7天免费试用,并推出Basic基础版和Plus高级版两种套餐,现有用户可免费升级体验Plus全部功能。未来计划支持腾讯云、百度云等中国本土云平台,持续优化Mac存储管理体验。

  • 从瑞幸×浪浪山到喜茶×Chiikawa,萌系联名如何破圈?

    最近,社交平台再次被一波萌系联名刷屏了。 瑞幸推出的《浪浪山小妖怪》主题杯迅速成为职场人士新宠,杯身上“诸邪退散”的字样精准击中打工人的共鸣点;喜茶与Chiikawa的联名产品首日发售,全国多家门店排起长龙,粉丝们纷纷在社交平台晒出集齐全套周边的照片…… 这些现象不禁让人好奇,为什么萌系联名总能一次次引爆市场?本期跟随「克劳锐」的视角一起看看吧~

  • 夺冠|绿盟科技梅花K战队荣获首届CCF智能汽车大赛汽车安全攻防赛全国总决赛总分第一

    2025年8月14-16日,首届CCF智能汽车大赛全国总决赛在杭州举行。绿盟科技梅花K战队凭借深厚技术积累和出色表现,荣获"汽车安全攻防赛"全国一等奖。大赛由中国计算机学会主办,设置汽车安全攻防和自动驾驶仿真两个赛项,吸引69支队伍参赛。绿盟科技长期深耕车联网安全领域,拥有覆盖"车-路-云-网"的全生命周期安全产品体系,已为数十家车企提供解决方案,并参与十余项车联网安全国标制定。此次夺冠展现了其在智能网联汽车安全领域的技术实力。

  • MCP服务库完整指南:如何选择最适合的Model Context Protocol服务

    本文介绍了MCP(Model Context Protocol)作为连接大型语言模型与外部数据源的重要桥梁。随着AI技术发展,选择合适的MCP服务库对开发者至关重要。文章分析了MCP服务库的核心价值:提升开发效率、增强系统互操作性、降低技术门槛。评估MCP服务库质量需考虑协议兼容性、安全性、生态系统丰富度及社区活跃度等维度。建议开发者根据业务需求选择服务,初创公司可侧重简便性,大型企业应关注安全性和扩展性。文章还指出MCP服务未来将向云原生化、智能化运维和标准化方向发展,并推荐使用专业对比平台(如mcp.aibase.cn)辅助决策。

  • 女中医调休6天抽空打场UFC 网友:反差感绝了

    ​近日,一位来自云南的中医医师石铭因调休六天参加UFC(终极格斗冠军赛)精英之路半决赛而引发关注。这位30岁的年轻医师,不仅在医院里专攻脑卒中、疼痛类及老年慢性病的调理,使用针灸治疗腰椎病、颈椎病,还是一名签约UFC的职业综合格斗运动员。 据了解,石铭为出战此次UFC精英之路第4季半决赛的特别主赛,特意向医院申请了六天调休假。她表示,为了这六天的假

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

今日大家都在搜的词: