首页 > 业界 > 关键词  > 正文

CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval

2024-01-10 17:32 · 稿源:站长之家

站长之家(ChinaZ.com)1月10日 消息:蚂蚁集团旗下CodeFuse 发布了首个面向 ToolLearning 领域的中文评测基准 ToolLearning-Eval,旨在帮助开发者跟踪和了解各个 ToolLearning 领域大模型的优势与不足。

该评测基准按照 Function Call 流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。

评测数据来源包括开源数据、英译中和大模型生成三种类型,以便更全面地评估模型的工具调用能力。

微信截图_20240110173358.png

ToolLearning-Eval 包含了两份评测集,分别包含239种工具类别,涵盖了59个领域,共有1509条评测数据。评测指标包括工具调用准确率(fccr)、工具识别准确率(aar)、工具调用结果准确率(arr)等。

首批参与评测的大模型包括 CodeFuse、Qwen、Baichuan、Internlm、CodeLLaMa 等。

评测结果显示,各模型在指令微调后的 function call 能力存在一定的差异,但在整体评分上差异不大。未来,ToolLearning-Eval 项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并希望与更多的开发者一起共建 ToolLearning 领域大模型评测体系。

GitHub 地址:

https://github.com/codefuse-ai/codefuse-devops-eval

ModelScope 地址:

https://modelscope.cn/datasets/codefuse-ai/devopseval-exam/summary

新鲜AI产品点击了解https://top.aibase.com/

举报

  • 相关推荐
  • 八年深耕铸就“即刻精彩”,HOLLYLAND猛玛2025秋季新品发布会前瞻

    猛玛将于2025年8月26日举办品牌战略暨秋季新品发布会,系统呈现其全球战略布局与技术成果。深耕无线音视频领域八年,猛玛致力于打造全球创作者信赖的“创作底座”,通过技术创新降低专业设备门槛,推动创作工具智能化与普惠化。发布会将首次系统阐释品牌使命“科技助力轻松表达,丰富人类精神世界”,并带来秋季重磅新品,展现对创作全流程需求的深入覆盖。

  • MCP服务库完整指南:如何选择最适合的Model Context Protocol服务

    本文介绍了MCP(Model Context Protocol)作为连接大型语言模型与外部数据源的重要桥梁。随着AI技术发展,选择合适的MCP服务库对开发者至关重要。文章分析了MCP服务库的核心价值:提升开发效率、增强系统互操作性、降低技术门槛。评估MCP服务库质量需考虑协议兼容性、安全性、生态系统丰富度及社区活跃度等维度。建议开发者根据业务需求选择服务,初创公司可侧重简便性,大型企业应关注安全性和扩展性。文章还指出MCP服务未来将向云原生化、智能化运维和标准化方向发展,并推荐使用专业对比平台(如mcp.aibase.cn)辅助决策。

  • 苹果OLED版MacBook Pro或将延至2027年发布

    苹果原定于2026年推出的OLED版MacBook Pro,上市时间恐将推迟至2026年底甚至2027年初。此前市场曾有预期,苹果会在今年底推出搭载M5处理器的MacBook Pro,并在次年带来配备M6处理器与OLED屏幕的全新版本,如今这一计划却出现变动。 目前有消息表明,搭载M5处理器的MacBook Pro发布时间已推迟至2026年春季,受此影响,OLED版MacBook Pro的发布时间也随之顺延。

  • OPPO ColorOS宣布升级无网畅聊 没网也能发图片、语音

    日前,OPPO ColorOS宣布无网畅聊全新升级,在无网状态下,不仅能打语音电话,还能发送图片、文字和语音。 使用路径:打开设置”-选择移动网络”-开启无网畅聊”,选择你想联系的欧加手机-发送消息。 据了解,无网畅聊是一项利用蓝牙技术解决近场通信问题的功能。

  • ColorOS 16 Beta开启尝鲜招募 首批机型含一加13等

    今日,ColorOS开启Beta测试版本招募,数码博主数码闲聊站”透露,此次Beta测试为全新ColorOS 16。 本次招募首批机型为一加13、一加13T、OPPO Find X8系列、OPPOFind N5,每款机型均招募300人,符合机型条件的可在8月12日17:00之前报名。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • All-in-One驱动:快鹭科技办公引擎的整合创新与优势解析

    快鸭科技以“All-in-One”为核心,依托AI Agent技术,提供一站式数智办公服务。通过整合产品矩阵、技术体系和服务网络,覆盖全流程办公需求,包括低代码平台、会议系统等,支持多行业定制化方案。其技术融合与协同化体系,助力企业实现高效数字化转型,提升运营效率。

  • OriginOS 6 Beta版开启招募测试:vivo X200 Pro/iQOO 13首发尝鲜

    今天,vivo社区宣布开启OriginOS 6 Beta测试招募,适配机型包括vivo X200 Pro、iQOO 13。 官方提醒,本次OriginOS 6 Beta测试系统仅面向极客用户(非正式版本),可能存在不稳定因素,对于普通用户,我们强烈建议不要使用,请谨慎报名。 因OriginOS 6测试版尚处于开发阶段,其运行效果不像正式版本那样稳定,版本可能存在部分Bug、耗电异常、三方兼容性异常等问题,如果用户追求手机

  • WEEX亮相0xConnect线下活动,深化全球化布局与行业伙伴交流

    WEEX交易所受邀出席圣彼得堡0xConnect线下活动,与全球加密品牌共同探讨行业趋势并拓展合作机会。该活动聚集了来自交易所、公链项目、钱包及投资机构的代表,通过面对面交流碰撞出新的合作火花。WEEX团队借此机会向与会者介绍了平台在合规建设、资金安全和用户体验方面的价值理念,展示了打造安全透明交易环境的品牌承诺。未来WEEX将继续参与全球行业活动,以开放姿态推动加密生态健康发展。

今日大家都在搜的词: