一句废话就把OpenAI o1干崩了？大模型的推理能力还真挺脆弱的。

2024-10-15 10:31 · 稿源：数字生命卡兹克公众号

就在一个月前，OpenAI悄悄发布了o1，o1的推理能力是有目共睹的。我当时用了几个很难很难的测试样例去试验了一下，很多模型见了都会犯怵，开始胡说八道。最难的其中一个是姜萍奥赛的那个数学题，几乎暴揍所有大模型的那个题，交给o1，o1竟然完完全全答对了。如果你还记得，我在那篇

......

本文由站长之家合作伙伴自媒体作者“数字生命卡兹克公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

GPT-5有望明天发布 OpenAI：免费无限使用

OpenAI宣布将于太平洋时间7月4日上午10点（北京时间7月5日凌晨1点）举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM"，引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能，但会设置防滥用阈值；Plus和Pro用户则可享受更智能的GPT-5服务，包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实，这将是AI爱好者的重大福利，也将进一步提升ChatGPT的实用性和用户体验。

OpenAI GPT-5 直播活动
GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

OpenAI发布最强AI模型GPT-5，但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降，且官方突然下架GPT-4o等8个旧模型，导致付费用户抗议。部分用户对旧版产生情感依赖，认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升，但交互体验明显退步。CEO承认低估用户对旧版的喜爱，承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减，面临数据质量和算力成本限制。总体而言，GPT-5在技术指标进步的同时，牺牲了情感交互体验。
OpenAI正式发布GPT-5模型网友：写作像诗人

OpenAI在直播活动中正式推出新一代人工智能模型GPT-5，宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域，实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）形容，与GPT-5交互如同与各领域专家对话，其多维度能力突破将重塑人机协作模式。分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送，免费用户与付�
减少幻觉、不再谄媚！OpenAI：即日起史上最强大的GPT-5将免费提供给用户

这是我们迄今为止最智能、最快、最实用的模型，具有内置思维，可将专家级智能交到每个人手中。” OpenAI在官方新闻稿中写道，这是我们迄今为止最优秀的人工智能系统。GPT-5的智能性能远超我们之前的所有模型，在编码、数学、写作、健康、视觉感知等领域均拥有卓越的性能。 GPT-5 不仅在基准测试中超越了之前的模型，回答问题的速度也更快，而且最重要的是，它对现�
OpenAI再获巨额融资：估值突破3000亿美元

OpenAI宣布成功完成新一轮融资，筹集资金高达83亿美元，公司的估值也首次突破3000亿美元大关。此次融资的规模和速度令人瞩目，这再次彰显了人工智能领域竞争的激烈程度。 OpenAI的最新融资计划提前完成，距离年初的融资目标提前数月达到。此前，OpenAI曾宣布计划在2025年筹集40亿美元的资金，软银已承诺提供30亿美元的资金支持。其中，最大投资者是龙骑士投资集团（Drago

OpenAI融资人工智能投资风险投资
OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI发布开源模型系列GPT-OSS，包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构，20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口，支持动态参数调节和任务微调优化，性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能，包括网页交互和Python代码执行，在标准化测试中表现优异。开源策略为开发者提供高性能替代方案，重新定义了AI模型的应用边界。

人工智能开源模型 OpenAI
换手机方便了曝小米NAS支持一键换机兼容iPhone生态

小米今年最重磅的新品，除了小米16系列，应该就是小米NAS了。小米生态链总经理陈波此前表示，小米NAS预计10月初步量产，博主则爆料，它将在12月与小米16 Ultra一同登场。今日，数码博主智慧皮卡丘”曝光了一款NAS产品，从其微博话题和评论回复来看，该产品正是小米NAS。据介绍，小米NAS打通一键换机，换手机会更方便，资料转移也更完善，同时兼容iPhone生态。
Soul App 在 ChinaJoy，在三次元的世界打造“Gen AI社交游乐园”

2025年8月1日，第二十二届ChinaJoy将在上海新国际博览中心开幕。作为亚洲规模最大、最具影响力的数字娱乐盛会，ChinaJoy不仅是青年流行文化的标杆性事件，更是全球数字创意产业发展的风向标。社交平台Soul App以"Soul树洞情绪疗愈酒吧"为主题亮相，推出原创IP"莫比乌斯·第三弹"限定款数字文创，展现平台孵化的原生潮流文化。现场观众还能体验Soul最新的AI社交技术，包括与虚拟人即时互动等。Soul通过数字文创产品深度融合平台标志性的"捏脸"文化，让用户通过个性化形象设计展现独特风格，实现情感表达。数据显示，Soul 18-30岁主力用户群体正通过数字文创实现自我探索与身份重构，反映了当代年轻人"情价比"取代传统"性价比"的消费心理。此外，Soul还展示了AI社交创新实践，致力于打造"超类真人"和"深度沉浸"的社交体验，重新定义AI社交范式。

ChinaJoy 数字娱乐年轻人文化
天际通与Aena推出专属礼遇，西班牙之旅更添惊喜！

文章记录了作者精心规划的欧洲地中海夏日之旅，重点分享了在巴塞罗那的美食体验。通过天际通与当地知名美食广场El Nacional合作推出的夏日专属礼遇，作者在La Taperia餐厅享用地道西班牙小吃和特色风味米饭，并获赠桑格利亚酒。此外，文章还介绍了天际通提供的便利服务：包括自动切换当地网络、稳定高速连接，以及与西班牙机场管理局合作推出的福利——购买流量套餐可享VIP休息室服务。文末建议旅行前通过天际通APP领取各类专属优惠，让旅程更省心精彩。

欧洲旅行地中海环线巴塞罗那美食
海信电视E8Q Pro以“影游旗舰”实力炸场，斩获2025ChinaJoy黑金奖

海信电视E8Q Pro在2025年ChinaJoy黑金奖评选中脱颖而出，凭借三大核心技术突破获此殊荣：1.搭载全球首颗信芯AI画质芯片H7，通过AI光色同控技术实现26bits灰阶控制，智能优化画面色彩、清晰度等参数；2.独家黑曜屏Ultra技术将屏幕反射率降至1.28%，黑度达普通屏幕四倍；3.原生4K170Hz高刷配合动态330Hz刷新率，配备4路HDMI2.1接口，实现职业电竞级低延迟。该产品以"巅峰画质，影游旗舰"的硬核实力，为《黑神话:悟空》等游戏影视内容提供极致体验，引领电视行业技术革新。

黑金奖海信E8Q Pro

热文

3 天
7天

一句废话就把OpenAI o1干崩了？大模型的推理能力还真挺脆弱的。

GPT-5有望明天发布 OpenAI：免费无限使用

GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

OpenAI正式发布GPT-5模型网友：写作像诗人

减少幻觉、不再谄媚！OpenAI：即日起史上最强大的GPT-5将免费提供给用户

OpenAI再获巨额融资：估值突破3000亿美元

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

换手机方便了曝小米NAS支持一键换机兼容iPhone生态

Soul App 在 ChinaJoy，在三次元的世界打造“Gen AI社交游乐园”

天际通与Aena推出专属礼遇，西班牙之旅更添惊喜！

海信电视E8Q Pro以“影游旗舰”实力炸场，斩获2025ChinaJoy黑金奖

热文

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线A

京东养车50亿补贴更名震骨价号称补贴不「唬」

REDMI Turbo 5已备案：首发天玑8500处理器

微信内存一下就少了10G上热搜无需担心误删重要资料

iPhone17系列仅标准版没涨价分析师称Pro机型将上调50美元

海底捞回应“改为半自助模式” 客服辟谣：系不实传闻

苹果iOS 26 Beta 5上线：细节优化更新内容一览

AI日报：百度推全球首批AI数字员工；Claude Opus4.1出世；谷歌

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm

荣耀Magic7 Pro 16+512G卫星通信版开售：售价5199元

李想回应理想被黑：知道是谁干的背后有专业水军

AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKB

周鸿祎称很多成功人士看不起新东西 AI时代需终身学习

站长商机