GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI

2023-09-05 20:09 · 稿源：新智元公众号

【新智元导读】代码能否跑起来的不是判断可靠性的标准，用语言模型写代码还需要考虑生产环境下的预期外输入。大型语言模型（LLM）在理解自然语言和生成程序代码方面展现出了非凡的性能，程序员们也开始在编码过程中使用Copilot工具辅助编程，或是要求LLM生成解决方案。经过几版迭代

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

ChatGPT

ChatGPT正秘密测试私信功能：支持用户之间直接交流

OpenAI正在为其明星产品ChatGPT测试名为私信”（Direct Messages）的社交功能。这一变化意味着ChatGPT正从原本用户与AI单向交互的语言模型工具，逐步转向具备人与人通过AI连接”能力的社交平台。 OpenAI此次测试的私信”功能允许用户创

ChatGPT OpenAI 社交功能
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

在2025年vivo开发者大会上，vivo正式发布自研蓝河操作系统3。该系统主打全链路智慧能力，基于轻量、模块化设计，将完整AI方案便捷部署至不同设备。即将发布的vivo WATCH GT 2首发搭载，升级智慧体验。系统内置视觉、听觉及感知唤醒等能力，原生支持AI识别、降噪等功能，并引入蓝心智能，支持问答、语音识别等。流畅度方面，搭载蓝河流畅引擎，实测资源消耗降低60%，绘制效率提升36%，调度切换开销下降58%，资源占用减少40%。

vivo 蓝河操作系统3 BlueOS
第一！世纪华通旗下Century Games登顶全球Top50手游商

知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单，世纪华通旗下Century Games从去年第7位跃居榜首，创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察：既实现《Whiteout Survival》等长线产品稳定运营，又凭借《Kingshot》等新作打造跨品类爆款，形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率，构建覆盖SLG、休闲、卡牌三大核心品类的产品矩阵。2025年上半年母公司世纪华通营收172亿元，同比增长85.5%，印证了其全球化布局与长效发展潜力。

全球游戏公司排名 Century Games
想释放多网卡带宽？银河麒麟V11的MPTCP方案来了

本文介绍银河麒麟操作系统V11的MPTCP解决方案，通过多路径TCP协议聚合多网卡带宽，实现数据传输速度倍增和链路故障无缝切换。方案提供内核级原生支持，部署简单，兼容主流应用，显著提升网络性能与可靠性，有效解决单网卡带宽瓶颈和多网卡资源闲置问题，为高吞吐业务场景打造高效网络传输新引擎。

多路径TCP 带宽优化网络传输
Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me
OPPO Watch S官宣：轻薄表皇

OPPO宣布将于10月16日推出OPPO Watch S智能手表，主打“轻薄表皇”设计，厚度不足9mm，号称目前市面上最薄的智能圆表。搭载全新智能手表系统，操作体验媲美手机，健康配置亦有惊喜。同时具备“健身教练”功能，可自动识别运动并提供超100种运动模式，专业记录数据。此外，发布会还将推出OPPO Find X9和X9 Pro旗舰手机，首批搭载联发科天玑9500平台，出厂预装全新ColorOS 16系统。

OPPO Watch S

今日大家都在搜的词：

热文

3 天
7天

GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI

ChatGPT正秘密测试私信功能：支持用户之间直接交流

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

第一！世纪华通旗下Century Games登顶全球Top50手游商

想释放多网卡带宽？银河麒麟V11的MPTCP方案来了

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

OPPO Watch S官宣：轻薄表皇

今日大家都在搜的词：

热文

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

Windows 10即将“停服”上热搜微软建议用户升级Win 11

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

小米第三款车路测谍照曝光雷军测试小米汽车现身盘龙古道

小红书崩了上热搜客服回应：已在尽快处理

谢霆锋成为荣耀未来科技体验官将亮相荣耀Magic8系列发布会

京东回应下场造车：不直接涉及制造三方联合推出

微信员工回应好友互删后互动清除：并非新版本特性

网易云音乐回应登入李玟账号：已与网友新手机号解绑

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

雷军回应小米手机登顶黄金周销量第一：非常了不起

Windows 10即将“停服”上热搜微软建议用户升级Win 11

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

站长商机