CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval

2024-01-10 17:32 · 稿源：站长之家

站长之家（ChinaZ.com）1月10日消息:蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval，旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。

该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程，并提供了相应的数据集供通用模型进行评测分析。

评测数据来源包括开源数据、英译中和大模型生成三种类型，以便更全面地评估模型的工具调用能力。

微信截图_20240110173358.png

ToolLearning-Eval 包含了两份评测集，分别包含239种工具类别，涵盖了59个领域，共有1509条评测数据。评测指标包括工具调用准确率（fccr）、工具识别准确率(aar)、工具调用结果准确率(arr)等。

首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。

评测结果显示，各模型在指令微调后的 function call 能力存在一定的差异，但在整体评分上差异不大。未来，ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集，增加评测模型，并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。

GitHub 地址:

https://github.com/codefuse-ai/codefuse-devops-eval

ModelScope 地址:

https://modelscope.cn/datasets/codefuse-ai/devopseval-exam/summary

新鲜AI产品点击了解：https://top.aibase.com/

（举报）

相关推荐

关键词：

iQOO 15官宣：10月20日发布

iQOO 15将于10月20日在深圳发布，跳过14代直接升级。配备6.85英寸2K三星珠峰屏，首发2K+LEAD OLED技术，提升透光效率并降低功耗。搭载高通第五代骁龙8至尊版平台与自研芯片Q3，性能强劲。后置5000万大底三摄，支持100W有线充电与无线充电，电池达7000mAh级别。设计延续圆角矩形摄像头模组，采用红白灰配色，握持手感出色。

iQOO15发布 iQOO15设计 iQOO15屏幕
ColorOS 16用户内测体验招募来了首批支持OPPO、一加30款机型

今日，ColorOS官微宣布，ColorOS 16系统用户内测体验招募开启。 OPPO Find N5、OPPO Find X8 Ultra、OPPO Find X8、OPPO Find X8s、一加13、一加13T、一加Ace 5 Pro等首批30款机型用户可报名升级。审核时间为10月14日-10月19日，根据答题分数、报名时间分批审核，10月15日10月21日根据审核结果分批推送。

ColorOS 16 系统内测
iOS 26.1 Beta 2发布：闹钟需要滑动停止、苹果智能支持繁体中文

苹果今天凌晨正式发布了iOS 26.1 Beta 2开发者预览版，加入开发者计划的用户都能升级体验。这次对用户影响最大的是闹钟功能的改进，之前iOS 26将闹钟的停止按钮加大，导致停止更方便，同时也更容易误触，苹果目前已经进行大改，需要滑动才能停止。这个设计让用户在迷迷糊糊中点击手机的无法结束闹钟，不会错过起床时间了。除了闹钟升级之外，Apple Intelligence还在更�

iOS 26.1 闹钟功能改进
ColorOS 16阶段性爆料总结：拥有安卓首个跨级融合编译技术

ColorOS 16将于10月15日正式发布，流畅度、AI、设计、互联四大方面全面升级。系统带来安卓首个无缝架构和芯片级动态追帧技术，确保全场景流畅体验；AI功能全面覆盖相册、便签等日常应用，新增AI人像补光、AI写作等实用功能；设计语言全新升级，图标动画交互全面优化；生态互联支持通知流转、电脑投屏等跨设备协同。目前Beta版已开启招募，支持一加13、Find X8系列等多款机型。

ColorOS16 流畅度 AI功能
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
GTAOL/GTA增强版万圣节活动月到来！持续时间最长、活动最多、奖励最丰富的狂欢！

GTA万圣节活动月开启，包含三大限时活动：幽浮绑架事件需合作逃脱获专属武器与服装；幽灵曝光任务拍摄新角色杰斯·诺里斯灵魂得奖励；佩里科岛丧尸生存战解锁木乃伊套装。另有UFO观光事件及电棒等限定载具武器。活动持续最长、奖励最丰富，推荐使用加速器优化网络体验。

GTA万圣节活动幽浮绑架事件洛圣都灵异载具
COLMO冰箱斩获中国家电创新成果大奖，700L+纯平全嵌旗舰亮相IFA展

在全球家电行业竞争加剧的背景下，中国高端品牌COLMO凭借700L+超大容量纯平全嵌冰箱的创新设计斩获2025年中国家电创新成果大奖，并在德国IFA展上惊艳亮相。该产品以突破性技术实现708升行业最大容量平嵌、超薄机身与无缝嵌入，结合AI食材识别、语音控制等智能科技，精准满足用户对容量与美学的双重需求。其屡获国际奖项，彰显了中国智造从技术追随向创新引领的转变，为行业转型升级提供了鲜活样本。

家电行业高端家电产品创新
强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

2025年9月29日，深度求索公司发布新一代模型架构DeepSeek-V3.2，引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本，在V3.1-Terminus基础上引入稀疏注意力机制，优化长文本训练和推理效率。目前官方应用端已同步更新，API大幅降价。此次模型体积达671GB，下载需8-10小时。业内专家指出，此次快速适配表明双方早有深度技术协�

DeepSeek-V3.2 大模型架构稀疏注意力机制
iQOO 15搭载自研电竞芯片Q3 能效提升40%

iQOO手机产品经理戈蓝V预热即将发布的iQOO 15，重点介绍其搭载的自研电竞芯片Q3。该芯片成本较高，但功能表现超值，是真正的独显芯片，突破行业普遍采用的SOC+GPU方案上限。Q3具备强大全自研全场景光线追踪能力，能效大幅提升，光追单帧功耗从行业上百毫安降至3毫安/帧，让手游玩家享受PC级光追效果。采用台积电超低功耗制程工艺，性能提升60%，能效提升40%，缓存提升50%，AI能力提升400%，支持2K144帧超分超帧并发功能，为手游体验带来视觉盛宴和操作革新。

iQOO15 自研电竞芯片Q3 全场景光线追踪
Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me

今日大家都在搜的词：

热文

3 天
7天

CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval

iQOO 15官宣：10月20日发布

ColorOS 16用户内测体验招募来了首批支持OPPO、一加30款机型

iOS 26.1 Beta 2发布：闹钟需要滑动停止、苹果智能支持繁体中文

ColorOS 16阶段性爆料总结：拥有安卓首个跨级融合编译技术

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

GTAOL/GTA增强版万圣节活动月到来！持续时间最长、活动最多、奖励最丰富的狂欢！

COLMO冰箱斩获中国家电创新成果大奖，700L+纯平全嵌旗舰亮相IFA展

强强联手！深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

iQOO 15搭载自研电竞芯片Q3 能效提升40%

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

三星W26折叠屏手机官宣10月11日发布

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

iQOO 15官宣：10月20日发布

新款智界R7/S7上市44天大定破38000台

京东双11今晚开启：现货开卖官方直降低至一折

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

小米回应“小米汽车突然自己开走”：排除车辆质量问题

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

雷军：小米17系列开售仅5天销量破100万台

雷军：小米17系列首销权益延续至10月31日

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

三星W26折叠屏手机官宣10月11日发布

站长商机