蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

2023-11-02 15:09 · 稿源：站长之家

站长之家(ChinaZ.com) 11月2日消息:蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。

该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。

此外，还针对 AIOps 任务做了细分，并添加了日志解析、时序异常检测、时序分类和根因分析等任务。

微信截图_20231102151204.png

目前，DevOps-Eval已发布了第一期的评测榜单，评测了 OpsGpt、Qwen、Baichuan 和 Internlm 等开源大语言模型。DevOps-Eval 的评测方式包括 Zero-shot 和 Few-shot，评测结果显示各模型得分相差不大。

未来，DevOps-Eval 将持续优化，丰富评测数据集，重点关注 AIOps 领域，并增加更多的评测模型。

GitHub 地址:

https://github.com/codefuse-ai/codefuse-devops-eval

HuggingFace 地址:

https://huggingface.co/datasets/codefuse-admin/devopseval-exam

（举报）

相关推荐

关键词：

从巴黎歌剧院到家庭客厅，海信激光电视携手 DEVIALET 帝瓦雷开启“家庭影院新世代”

11月4日，海信与法国高端音响品牌帝瓦雷在巴黎歌剧院举办跨界盛典，展示激光电视探索X1 Ultra的震撼影音效果。双方深度合作，通过100英寸巨幕与环绕立体声营造沉浸式体验，呈现110% BT.2020超广色域及IMAX影院级画质。帝瓦雷凭借专利音响技术，打造临场感声学艺术。2025年初，帝瓦雷音响系统将引入海信主力产品，让家庭用户享受现场级音效。海信激光电视连续6年全球出货量第一，市场份额达70%，通过技术深耕与全球品牌合作，持续引领家庭影音体验升级。

海信激光电视帝瓦雷音响巴黎歌剧院
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
DeepSeek崩了上热搜页面显示“服务器繁忙”

截至2025年11月3日，大量用户在微博话题#DeepSeek崩了#下集中反馈，DeepSeek平台出现服务异常状况，引发广泛关注。综合各方信息，此次故障呈现多方面表现，对用户使用造成显著影响。众多用户表示遭遇服务全面中断问题，在尝试使用平台

DeepSeek故障服务器异常服务中断
你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

GEO指数是AI搜索时代的品牌可见度衡量指标，量化品牌被AI引用、推荐和对比的频率与深度。与传统SEO比拼搜索排名不同，GEO衡量的是品牌在AI回答中的提及率和好感度。数据显示，高GEO指数品牌在AI搜索中的转化率是传统SEO的3.4倍。文章通过案例说明，企业可通过监控竞品差距、补充缺失内容关键词、优化AI提示词等策略提升GEO指数。建议立即使用AIBase平台免费体验GEO监控，把握AI搜索新机遇。

GEO指数 AI搜索品牌能见度
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级

今日大家都在搜的词：

热文

3 天
7天

蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

从巴黎歌剧院到家庭客厅，海信激光电视携手 DEVIALET 帝瓦雷开启“家庭影院新世代”

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

易鑫正式发布汽车金融行业首个Agentic大模型

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

DeepSeek崩了上热搜页面显示“服务器繁忙”

你的品牌在豆包、DeepSeek里搜不到?这份GEO品牌监控攻略，3步把曝光拉满

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

今日大家都在搜的词：

热文

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

站长商机