首页 > 业界 > 关键词  > CLEVA最新资讯  > 正文

香港中文大学发布全面中文大语言模型评测CLEVA

2023-10-17 09:29 · 稿源:站长之家

核心要点:

  1. 香港中文大学的研究团队发布了全面的中文大语言模型评测方法,已被EMNLP2023System Demonstrations录取。

  2. 该评测方法包含31个任务和多种评测指标,覆盖了84个数据集,着重关注准确性、鲁棒性、公平性等多个维度。

  3. 评测方法还提供多样的提示模版,降低数据污染风险,以及提供清晰的操作界面,可供研究团队使用和交互评测。

站长之家(ChinaZ.com)10月17日 消息:香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法,这一方法已经被EMNLP2023System Demonstrations录取。这一评测方法名为CLEVA,是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的,与上海人工智能实验室合作研究。

CLEVA的目标是为中文大语言模型提供全面的评测,覆盖多个任务和多个评测指标,以更好地理解和评价这些模型的能力。

image.png

论文地址:https://arxiv.org/pdf/2308.04813.pdf

这一评测方法包含了31个任务,其中包括11个应用评估和20个能力评测任务,共涵盖了来自84个数据集的370,000多个中文测试样本。这是过去同类工作中样本数量最多的,为全面评测提供了更多的数据支持。

CLEVA不仅关注传统的准确性指标,还引入了鲁棒性、公平性、效率、校准与不确定性、偏见与刻板印象以及毒性等多维度的评测指标,以更全面地评价大语言模型的性能。

为了确保评测的可比性,CLEVA为每个评测任务准备了一组多个提示模板,使所有模型都使用相同的提示模板进行评测。这有助于公平比较模型能力,同时还可以分析模型对不同提示模板的敏感程度,为模型的下游应用提供指导。

此外,CLEVA还采取了多种方法来降低数据污染的风险,包括采用新数据和不断更新的测试集。

这一全面的中文大语言模型评测方法旨在提供更可信的评测结果,为学术界和工业界提供更准确的模型能力认知。研究团队已经使用CLEVA评测了23个中文大模型,并计划持续评测更多的模型。其他研究团队也可以通过CLEVA网站提交和对接评测结果,从而促进大模型能力的认知和评测。

举报

  • 相关推荐
  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • 时空壶接入DeepSeek、豆包等大语言模型,翻译准确度再次跃升

    在全球跨语言沟通需求持续攀升的当下,时空壶再次以创新之举震撼行业。时空壶正式宣布接入DeepSeek、豆包等大语言模型,为其同传耳机产品带来了前所未有的体验升级,彻底改写了同传翻译的游戏规则,也让传统机翻模式成为历史。这一创新举措不仅满足了当下各行业对高质量跨语言沟通的迫切需求,更为未来跨语言交流的发展指明了方向,有望推动整个行业向更加智能、精准、自然的方向迈进,助力全球交流合作开启全新篇章。

  • 中文海报设计,赛道一夜颠覆

    豆包升级上新,网友们再次玩疯!更新的是豆包文生图功能,官方直接用一张豆包AI生成的海报给划了重点:没错,豆包可以在图片中生成更准确的文字了,尤其是中文。效果可以是酱婶的:给自己的旅游VLOG整点某音某书封面,风格也是直接拿捏。豆包:即梦AI:目前,豆包免费,即梦AI每天会赠送免费积分,感兴趣的大家都可以自己上手玩一玩。

  • 格创东智与香港大学共建工业AI联合实验室,推动香港成为球工业AI创新枢纽

    4 月 16 日,格创东智与香港大学(以下简称为港大)签订合作协议,共同成立“香港大学-格创东智工业AI联合实验室”,并聘任香港大学副校长(研究)申作军教授为荣誉首席科学家。实验室将深度融合香港大学的人工智能科研优势与格创东智服务先进制造的工业AI落地用例,开展“工业AI技术的创新与实际应用”方向的研究工作。此举是格创东智在年初迭代章鱼Agentic AI平台后

  • 微信上线日本87万+餐厅:全中文界面 支持微信支付

    快科技4月23日消息,近日,微信与日本最大的餐厅搜索及预订平台Tabelog强强联合,正式推出Tabelog”微信小程序,为广大用户在日本的餐饮体验带来了极大的便利。以往,在日本寻找并预订心仪餐厅,语言障碍常常是一大困扰。但现在,有了Tabelog”微信小程序,这一问题迎刃而解!它为用户提供了全中文的预订通道,即使你不懂日语,也能轻松约上自己心仪的餐厅,如同在国内使用各类生活服务小程序一样便捷。这款小程序的使用方式极为简单。无需繁琐地下载各种应用程序,只需在微信中进行搜索,即可随时随地使用。它支持微信支付,并且能够实时

  • iOS 18.4正式版发布:5G-A来了!苹果智能终于支持中文

    今天凌晨,苹果推送了iOS18.4正式版更新,带来了一大批的新功能和优化修复。首先大家感知最强的就是5G-A,也就是我们常说的5.5G,其理论峰值速率可达5G的10倍。需要注意的是,此次推送的更新介绍,很多国行用户反馈没有进行汉化,全篇都是英文,可能是个bug或者苹果的疏忽。

  • 百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用、开发者拥抱MCP

    4月25日,百度在武汉举办Create 2025开发者大会。李彦宏发布文心大模型4.5 Turbo和深度思考模型X1 Turbo,性能提升同时价格大幅下降。大会推出全球首个电商交易MCP平台,并发布数字人、智能体心响APP等多款AI应用。百度宣布未来5年培养1000万AI人才,并点亮国内首个三万卡集群。同时启动第三届"文心杯"创业大赛,最高奖金达7000万元。大会还包含6大分会场、40节AI公开课及5000平互动展区,全面展示百度AI生态布局。

  • 甲亢哥直播用华为三折叠拍视频 因为不认识中文闹了个笑话

    美国网红“沙雕兄弟”在最新直播中回应中国网友提问,展示了其使用的华为Mate X3手机。起初他对发布的某个作品不满意,因不熟悉中文操作界面,表示不会使用该折叠手机删除已发布的作品。随后直播中,他提到手中的华为Mate X3并非新到从中国深圳购买的,当时他在华为线下体验店一口气买了三个,且是全款购买。资料显示,华为Mate X3是华为公司于2023年3月23日发布的折叠屏手机产品,采用6.4英寸动态 OLED 外屏,7.85英寸可折叠 OLED 内屏,搭载骁龙8+ 4G八核处理器,后置摄像头为5000万像素超感知摄像头+1300万像素超广角摄像头+1200万像素潜望式长焦摄像头,支持5倍光学变焦、50倍数字变焦。2023年4月7日开售后,华为Mate X3 全网通 12GB+256GB 开卖价格为12999元;华为Mate X3 全网通 12GB+512GB 开卖价格为13999元;华为Mate X3 典藏版 全网通 12GB+1024GB 开卖价格为15999元。

  • 小米官宣YU7中文名与寓意:御7 “陆地战车、御风而行”

    正值小米汽车上市一周年之际,小米集团董事长雷军向公众透露了一个重要信息:小米汽车YU7的中文读音定为“小米御7”。“御”字寓意“陆地战车,御风行”,象征着车辆强大的动力和优雅的行驶姿态。该车也将提供单电机后驱版,最大功率为235kW,最高车速可达240km/h,续航里程最远可达820公里。

  • 小凡星丨香港专家赋能儿童语障康复,小凡星光峰塔社交语言研修班圆满收官

    4月20日,香港知名儿童康复专家李月裳教授主讲的"小凡星社交语言教师研修班"圆满落幕。本次研修吸引了全国40余家小凡星儿童康复中心的骨干教师参与,围绕社交语言康复领域的前沿理论与实践技巧展开深度研讨。李教授通过理论课程、案例剖析、实操演练等多元形式,系统提升教师的专业素养与教学能力。作为小凡星"光峰塔"教师培养体系的重要实践成果,该项目通过"走出去、请进来"的创新理念,构建高端学术交流平台,持续为特殊教育领域输送优质人才。未来,小凡星将持续深化教师培养体系建设,为特殊儿童提供更优质的康复服务。