首页 > AI头条  > 正文

​微软 GitHub 推出跨模型 AI 审查功能 Rubber Duck 助力提升编程效率

2026-04-08 14:41 · 来源: AIbase基地

微软 GitHub 于 4 月 6 日发布了一个激动人心的消息,为其 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能。这项新功能引入了一种跨模型的 “第二意见” 审查机制,旨在帮助开发者提升代码的准确性和效率,最终使 AI 的性能提升近 75%。

image.png

在软件开发过程中,早期的决策错误往往会积累成更大的问题,而传统的自我审查方法容易受到模型本身训练偏差的影响。Rubber Duck 的推出,正是为了引入不同的模型作为独立审查者,从而提供多元化的视角,及时发现潜在的错误。这项功能支持用户选择 Claude 系列模型作为主控,接着使用 GPT-5.4 进行代码审查,确保代码的准确性和完整性。

通过 SWE-Bench Pro 基准测试,研究显示 Claude Sonnet 4.6 和 Opus 4.6 的单独运行存在显著性能差距,而 Sonnet 4.6 结合 Rubber Duck 后,成功弥补了 74.7% 的性能差距。在处理复杂任务时,该功能的表现更为突出,得分比基线高出 3.8%。具体案例表明,它能有效识别架构逻辑漏洞、循环覆盖错误以及跨文件的冲突问题。

Rubber Duck 的使用方式灵活多样,支持主动、被动和用户触发的三种审查模式。系统会在制定计划、复杂实现和测试编写后的关键节点自动寻求审查,也可以在开发者陷入问题时被动触发。同时,用户还可以随时主动请求审查,系统会展示反馈内容和修改依据。

目前,Rubber Duck 功能已在实验模式下上线,用户只需安装 GitHub Copilot CLI 并运行 /experimental 命令,即可启用这一新功能,享受 Claude 模型与 GPT-5.4 的协同工作体验。

划重点:

🌟 1. 微软 GitHub 推出 Rubber Duck 功能,引入跨模型的 AI 审查机制,提升编程效率。  

🔍 2. 该功能通过结合 Claude Sonnet 4.6 和 GPT-5.4,成功弥补 74.7% 的性能差距。  

⚙️ 3. Rubber Duck 支持多种审查模式,用户可主动请求审查,确保代码质量。  


  • 相关推荐
  • 国产AI大模型GLM-5.1登顶开源第一:可独立编程8小时

    3月底智谱正式推出了GLM-5.1大模型,编程能力评分45.3分,号称比全球最强的Opus 4.6只低了2.6分。 前两天GLM-5.1大模型也正式开源,也深受开发者喜爱,现在最新的排名也来了全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。 除了榜单表现优秀,根据智谱的说法,GLM-5.1不仅继承了上一代模型的开源SOTA编码能

  • 索尼电影感直播远程调试工具升级,助力服务商效率再提升

    索尼“电影感直播远程调试”服务工具(RASL)自今年1月发布以来,受到直播服务机构的广泛关注与采用。该工具支持工程师远程精细调节相机核心参数、实时对比画面、预设存储等操作,相比传统线下调试模式,大幅提升响应效率,降低人力与时间成本。4月2日起,RASL迎来V1.1.0版本升级,新增预设分享功能,支持公司内工程师共享设置;新增“对比快照”功能,便于调试时与保存的快照对比,轻松判断呈现效果;同时操作稳定性也得到优化。该工具革新了直播服务商的远程调参流程,通过USB-C线直连相机与电脑,实现参数远程精准调控,配合一键对比功能,高效校验画面效果,大幅优化调试流程,并支持多端云端操作及历史记录保存分析,提升团队协作效率,实现专业级精调与降本增效。

  • ATH变阵两周,阿里AI体系化开启“日更”节奏

    半个月前,阿里巴巴成立Alibaba Token Hub(ATH)事业群,外界的关注还停留在组织调整、人员变动、战略磨合这类问题上。没人会想到,这个新生的事业群已在本周以“日更”的方式三连发新模型。 3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,新模型在音视频理解、识别、交互等215项任务中取得SOTA表现。两天之后,又发布了图像生成与编辑统一模型Wan2.7-Image,此次更新

  • openclaw github installation guide:官方安装全流程!

    本文介绍了2026年AI行业已进入注重落地和实际应用的智能体阶段,并推荐了开源智能体框架OpenClaw。文章提供了详细的保姆级部署教程,支持Windows、macOS、Linux全平台,涵盖网关搭建、认证配置、模型对接等步骤,帮助用户快速拥有专属的私有化AI助手,实现隐私自主与强大执行能力。教程包括环境准备、一键安装、模型选择(如Kimi、OpenAI等)、API配置及TUI界面使用,并解答了常见问题。最终目标是让用户轻松部署并开启专属AI的高效应用之旅。

  • 用“龙虾”做AI短剧效率翻10倍?理想很美好,现实很骨感

    ​与“龙虾”(OpenClaw)有关的热议仍在继续。 近期,我们发现有一些创作者在小红书等平台分享“龙虾”接入短剧工作流的帖子。有人分享“我用‘龙虾’做AI短剧,效率直接提升了10倍!”,还有人说“养成‘龙虾’后,一句话就能生成一部短剧”。似乎在“龙虾”的加持下,AI短剧有可能迎来“全自动”时代,“小白”也能上手做短剧。

  • 国产编程模型新王诞生!阿里Qwen3.6-Plus正式发布

    阿里千问今天正式发布新一代大语言模型Qwen3.6-Plus,这也是当下编程能力最强的国产模型。 在核心能力上,千问3.6较上一代进步明显,在系列编程能力权威评测中,编程表现超越GLM-5、Kimi-K2.5等参数量达其2至3倍的国产模型,接近全球最强编程模型Claude系列水平。 在SWE-bench真实编程任务、Terminal-Bench2.0终端编程、NL2Repo长程编程任务,以及Claw-Eval、QwenClawBench等Agent能力评测中,

  • Scratch编程培训竞赛必备:AI录题+语言实操+阅卷发放证书的考试系统

    文章介绍了“优考试”系统如何通过AI技术革新青少年编程教育中的在线考试环节。系统利用AI智能导题功能,可自动识别并导入Scratch等编程题目,大幅提升题库建设效率;内置多种编程语言编译器,支持在浏览器中直接进行积木搭建与代码调试,确保考试环境统一公平;通过霸屏监控、实时摄像头与人脸识别等技术保障竞赛严肃性,并采用测试用例自动评分实现客观评价。此外,系统还能自动生成电子证书,助力机构品牌传播。整体而言,该系统将教师从繁琐的教务工作中解放出来,回归教学本质。

  • 千问3.6正式发布:最强编程国产模型 接近Claude

    今天,千问发布新一代大语言模型Qwen3.6-Plus。 千问3.6整体性能较3.5进步显著,具备极强的智能体编程能力,在系列编程能力权威评测中,千问3.6成为当下编程能力最强的国产模型,接近全球最强编程模型Claude系列。 在前端网页开发、仓库级复杂任务等实测场景中,千问3.6可自主拆解任务、规划路径、测试修改直至任务完成。 Qwen3.6-Plus展现出卓越的工程落地能力,不仅能实�

  • 智谱发布GLM-5V-Turbo模型:编程告别纯文本 一张图片就能生成代码

    智谱AI于4月2日发布GLM-5V-Turbo多模态编程模型,专为视觉编程打造。该模型深度融合视觉与文本能力,能看懂设计稿、截图、网页界面并生成可运行代码,实现“看得懂画面、写得出代码”。其三大核心特性包括:原生多模态编程基座,支持图片、视频、设计稿等多模态输入;兼顾视觉与编程能力,在多模态编程、GUI+Agent等基准上表现领先;深度适配Claude Code与龙蜥场景,可实现环境规划与动作执行的完整闭环。实测显示,该模型在设计稿还原、视觉代码生成等任务中表现优异,在AndroidWorld、WebVoyager等GUI操控测试中同样突出,纯文本编程能力稳定。目前已落地图像即代码、龙蜥视觉赋能等典型场景。

  • 提升效率与格调:2026年超薄笔记本入手攻略

    本文探讨了2026年超薄笔记本的演进趋势,指出其已超越单纯性能满足,成为融合个人品味与高效创造力的美学载体。随着英特尔第三代酷睿Ultra处理器等技术的突破,笔记本在能效比、AI算力(超180 TOPS)和本地大模型运行能力上实现飞跃。同时,屏幕技术(如Tandem OLED)与机身材料(如高科技陶瓷铝)的创新,提升了视觉与触感体验。文章重点推荐了三款产品:华硕灵耀14双屏2026以其创新的双屏铰链设计,拓展了移动生产力场景;荣耀MagicBook Pro 14 2026在性能释放与续航间取得了出色平衡;联想ThinkBook模块化AI PC概念机则探索了硬件自由组合的未来形态。这些产品共同表明,优秀的超薄笔记本需深刻理解并预见用户的真实需求。

今日大家都在搜的词: