根据清华大学基础模型研究中心发布的《2024年3月SuperBench大模型综合能力评测报告》,14个具有广泛影响力的模型进行了评估。
国内领先模型文心4.0表现抢眼,接近国际顶尖水平,差距逐渐缩小。

在人类对齐能力评估中,文心4.0位居国内第一。
中文推理和语言评估中,文心4.0遥遥领先,与其他模型差距明显。在中文理解方面,其领先优势更甚,高于第二名的GLM-4超过0.41分。
语义理解数学能力评估中,文心4.0与Claude-3并列全球第一,GPT-4系列模型位于第四和第五位。其他模型得分集中在55分左右,远低于领先群体。
阅读理解能力评估中,文心4.0超越GPT-4 Turbo、Claude-3和GLM-4,取得最高成绩。
企业关注的安全性评估中,文心4.0表现出色,压过国际一流的GPT-4系列模型和Claude-3,获得最高分(89.1分),而Claude-3仅位列第四。
自2023年3月16日文心一言首次发布以来,用户数量已超过2亿,每日API调用量超过2亿次。

(举报)