大模型无法替代码农！普林斯顿芝大惊人发现：GPT-4解决GitHub编程问题成功率为0

2023-10-17 14:29 · 稿源：新智元公众号

【新智元导读】ChatGPT之类的AI编码工具来势汹汹，Stack Overflow又裁员了!不过，普林斯顿和芝大竟发现，面对真实世界GitHub问题，GPT-4的解决率竟是0%。Stack Overflow，已经被ChatGPT创飞了!因为码农大量涌向ChatGPT、Github Copilot，Stack Overflow今天不得已宣布裁员100多人，

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

GPT-4

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
华为WATCH GT 6/Pro系列手表发布售价1488元起

华为于9月24日正式发布WATCH GT6系列智能手表，起售价1488元。该系列提供41mm和46mm两种尺寸，搭载OLED屏幕，续航最长可达21天，支持5ATM防水和IP69防尘。GT6 Pro新增跌倒检测、ECG心电图分析及专业运动模式，并配备蓝宝石玻璃表镜。全系采用高硅叠片电池技术，能量密度提升37%，支持无线快充。此外，首次应用骑行模拟功率功能，并搭载TruSense技术，精准监测心率、血氧等健康指标。GT6 Pro起售价2488元，进一步满足专业用户需求。

华为WATCH GT6 智能手表
HTTP 402与微支付：一段沉睡三十年的代码，在AI时代觉醒

30年前HTTP 402协议因交易成本高、体验割裂和技术缺失而失败，如今AI时代带来消费原子化、决策流线化和主体去人化三大变革，使微支付成为可能。AI代理通过钱包身份、风控机制和无缝支付协议实现高频小额交易，重构互联网经济逻辑，让HTTP 402从理想变为AI经济的支付基石。

HTTP402 微支付 Roy
OPPO Watch S官宣：轻薄表皇

OPPO宣布将于10月16日推出OPPO Watch S智能手表，主打“轻薄表皇”设计，厚度不足9mm，号称目前市面上最薄的智能圆表。搭载全新智能手表系统，操作体验媲美手机，健康配置亦有惊喜。同时具备“健身教练”功能，可自动识别运动并提供超100种运动模式，专业记录数据。此外，发布会还将推出OPPO Find X9和X9 Pro旗舰手机，首批搭载联发科天玑9500平台，出厂预装全新ColorOS 16系统。

OPPO Watch S
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
OPPO Find X9系列外观公布：共有4款配色

9月23日，OPPO正式揭晓Find X9系列外观设计，采用独特小矩阵相机DECO，推出绒砂钛、绒光钛、霜白、雾黑四款配色。该系列工艺精湛，绒砂钛版实现镜组与机身一体感，正面配备极窄四等边直屏与金属直角边框。核心配置搭载联发科天玑9500平台，采用第三代3纳米工艺，集成全新CPU、GPU G1-Ultra及Imagiq 1190影像处理器，性能、功耗、影像和AI能力显著提升，GeekBench单核跑分达4007，多核11217。此外，首发搭载全场景真1nit明眸护眼屏，从材料到算法均由OPPO深度定制，实现端到端显示素质把控，提升视觉舒适度。

OPPO Find X9
iPhone 17 Pro mini首曝：4.7英寸屏未能上市

9月24日有博主爆料，苹果曾计划推出4.7英寸iPhone 17 Pro mini，但在DVT阶段取消开发。该机型设计类似iPhone 17 Pro，采用横向矩阵相机和铝合金一体化机身，但工程师认为其外观“荒谬”。苹果曾尝试小屏路线，iPhone 12/13系列推出mini版本但销量未达预期，iPhone 14起以Plus替代mini，然而Plus销量同样不佳。从iPhone 17系列开始，苹果新增主打轻薄的Air机型，Plus系列正式退出市场。

iPhone 17 Pro

今日大家都在搜的词：

热文

3 天
7天

大模型无法替代码农！普林斯顿芝大惊人发现：GPT-4解决GitHub编程问题成功率为0

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

华为WATCH GT 6/Pro系列手表发布售价1488元起

HTTP 402与微支付：一段沉睡三十年的代码，在AI时代觉醒

OPPO Watch S官宣：轻薄表皇

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

OPPO Find X9系列外观公布：共有4款配色

iPhone 17 Pro mini首曝：4.7英寸屏未能上市

今日大家都在搜的词：

热文

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

全新问界M7小订破22万：将于明晚上市公布价格

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

小米平板8系列搭载11.2英寸3.2K旗舰屏

iPhone17遭首批用户吐槽客服回应：建议新机带壳

雷军演讲主题《改变》官宣：聊玄戒芯片和小米汽车背后的故事

鸿蒙智行尚界H5小订破15万台：明晚上市

realme真我GT8系列官宣10月发布

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-A

小米召回116887辆SU7电动汽车：将OTA升级消除安全隐患

雷军回应小米召回11.7万辆SU7：将为用户带来更多期待功能

雷军公布小米17标准版外观：1.18mm窄边框、6.3英寸直屏

鸿蒙智行秋季发布会定档9月23日：尚界H5、新问界M7来了

全新问界M7小订破22万：将于明晚上市公布价格

苹果 iPhone 17/Pro 系列今日发售多维度升级

京东：iPhone 17开卖4小时全国超3万人签收

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-

折叠屏iPhone细节曝光采用超薄钛合金：预计售价2000美元起

站长商机