站长之家(ChinaZ.com)1月10日 消息:蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval,旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。
该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。
评测数据来源包括开源数据、英译中和大模型生成三种类型,以便更全面地评估模型的工具调用能力。
ToolLearning-Eval 包含了两份评测集,分别包含239种工具类别,涵盖了59个领域,共有1509条评测数据。评测指标包括工具调用准确率(fccr)、工具识别准确率(aar)、工具调用结果准确率(arr)等。
首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。
评测结果显示,各模型在指令微调后的 function call 能力存在一定的差异,但在整体评分上差异不大。未来,ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
ModelScope 地址:
https://modelscope.cn/datasets/codefuse-ai/devopseval-exam/summary
新鲜AI产品点击了解:https://top.aibase.com/
(举报)