首页 > 热点 > 关键词  > 正文

蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

2023-11-02 15:09 · 稿源:站长之家

站长之家(ChinaZ.com) 11月2日 消息:蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。

该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。

此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

微信截图_20231102151204.png

目前,DevOps-Eval已发布了第一期的评测榜单,评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot,评测结果显示各模型得分相差不大。

未来,DevOps-Eval 将持续优化,丰富评测数据集,重点关注 AIOps 领域,并增加更多的评测模型。

GitHub 地址:

https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace 地址:

https://huggingface.co/datasets/codefuse-admin/devopseval-exam

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天