首页 > 传媒 > 关键词  > 正文

OpenAI和科大讯飞,瞄准了同一件事

2025-08-12 09:18 · 稿源: 站长之家用户

夏季大模型行业的密集上新随着上周GPT-5的推出终于落下帷幕。北京时间8月8日凌晨,OpenAI正式发布下一代旗舰模型GPT-5,距离上代模型GPT-4的推出已经过去了29个月。

但GPT-5上线初期的反馈却有些两极分化。GPT-5仍然是当前能力最为全面的模型,但和此前OpenAI一直保持着断代式的模型性能领先相比,GPT-5并未与市场主流模型拉开显著差距,部分基准测试场景下甚至被马斯克的Grok4或者同期发布的Claude Opus4.1超越。

部分原因在于OpenAI的先发优势正在减弱,但更关键的原因或许在于OpenAI试图将大模型从“能用”推向“好用”。和此前发布的旗舰模型不同,OpenAI在此次GPT-5发布会中尤其强调他们在减少模型幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。

这和此前国内大模型代表星火 X1的升级不谋而合。作为当前市面上唯一全栈自主可控的全国产大模型,星火X1在7月25日的升级同样着重强调对大模型实用痛点尤其是幻觉问题的精准攻克上。

在对模型幻觉问题治理上,星火X1取得显著突破,无论是对自身生成内容真实性的把控(事实性幻觉治理),还是参考外部资料时对原文的忠实程度都有显著改善(忠诚性幻觉治理),大大提升了大模型在行业应用中的可靠性。

甚至二者在技术路线的探索上都颇为一致。OpenAI在官网介绍,针对模型幻觉问题,他们在GPT-5训练中加入了多目标奖励机制以及思维链监控等手段,来改善模型幻觉问题。多目标奖励改变了此前模型单一奖惩机制容易迎合用户的弊病,即便模型给出不确定性回答也可以得到正向反馈,思维链监控则可以有限防止推理模型在深度思考过程中的幻觉问题。

大模型幻觉的后果

在强化学习技术上,科大讯飞同样试图改进大模型粗糙的数值奖励机制,将评语模型与细粒度反馈的强化学习技术结合起来,就像是给AI配了一个耐心的老师,能在解题的每个环节给出具体建议。这种做法让复杂的数学推理训练变得更加高效,也解决了强化学习训练中“奖励太少”的痛点问题。

此外,科大讯飞提出的基于多路径采样验证及事实性约束强化学习的幻觉治理技术,则可以在大模型思考过程及恢复生成阶段,实现客观问题与标准答案的深度对齐,从而大幅减少慢思考下的幻觉率。

但在治理模型幻觉问题上,作为大模型国家队的科大讯飞还是比OpenAI更多走了一步。科大讯飞不仅从模型训练与监督角度入手,还深入介入了大模型训练更前置的数据环节。

在此前已经建立行业高质量数据集以及讯飞知识工程平台的基础上,科大讯飞还开创性地提出了基于多路径采样验证及事实性约束强化学习的幻觉治理技术,在大模型思考过程及回复生成阶段,实现客观问题与标准答案的深度强对齐,大幅减少了在慢思考下的幻觉率让大模型回复通用常识及专业知识问题更加可靠。

从全国产大模型代表的星火X1,到海外大模型代表的GPT-5,全球顶尖大模型同时强调模型可靠性的升级。这背后是因为,大模型已经日益深入到社会应用的方方面面,在性能稳步提升的同时,也对模型的可靠性和易用性提出了更高要求。

“我们的核心追求的是模型的实际应用价值以及大众的可访问性/可负担性。我们可以发布更智能的模型,但更重要的这次的模型可以让超过十亿人受益。”OpenAI创始人兼CEO萨姆·奥尔特曼说。

纵观此次OpenAI针对GPT-5的升级,你可能会感到些许熟悉。在发布会中,模型性能的提升一笔带过,更多时间都用在了讲述GPT-5的具体行业应用,尤其是编程、写作以及医疗等三个大模型核心应用场景上。

其实,大模型行业中最早呼吁关注模型行业应用价值的正是科大讯飞。早在科大讯飞立项攻坚大模型时,就确立了“1+N”的研发方向,在研发一个通用大模型的同时,也同步推出教育、医疗、法律等行业大模型。过去几年来,讯飞星火围绕医疗、教育、法律、汽车、科研等多个重点行业发布多个行业大模型,同时与多个行业龙头、央国企展开深入合作,共同推进大模型落地应用。

7月25日全新升级的星火X1,更是科大讯飞推动模型从“能用”走向“好用”的关键一步。二者虽然只一字之差,但背后的技术深度和应用广度完全不同。升级后的星火X1已全面赋能教育、医疗、企业应用、代码、科研等行业大模型和智能体,在复杂行业场景任务上进一步满足用户核心需求。

星火代码大模型已深度赋能金融、制造、能源、科技等100余家关键领域客户,在典型应用场景中驱动研发效率提升超过50%。测试集合来源:测试集合来自认知智能全国重点实验室构建的代码实用场景测试集

大模型产业已经到了产业化与规模化落地的关键时期,大模型不仅要能用,更要好用。作为大模型产业真正的国家队代表,星火X1更是肩负着中国大模型产业真正自主可控的使命要求。在保持性能领先的同时,也要真正赋能关乎社会民生的重点行业,为世界提供第二种选择。

量子位智库

星火X1能够先于GPT-5提出大模型要从“能用”走向“好用”,要在智能领先的同时拥有更广的行业应用,这背后彰显了中国人工智能产业已经从追赶逐渐走向领先阶段。

今年是国家《新一代人工智能发展规划》“第二步”的关键之年,在人工智能基础理论实现重大突破的同时,尤为强调在技术与应用达到世界领先水平,人工智能成为带动我国产业升级和经济转型的主要动力。

作为大模型国家队的突出代表,星火X1更要率先解决横亘在大模型行业落地难的关键技术与应用难题。从这个角度上来说,星火X1已经交出了一份出色的答卷。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 从多语破壁到生态共建 科大讯飞如何以全栈自主可控大模型赋能中国AI出海?

    2025世界人工智能大会(WAIC)上,科大讯飞展区成为焦点,展示20余款AI产品,呈现技术创新与产业赋能成果。其星火语音大模型支持37种主流语言,效果超越OpenAI Whisper v3,并覆盖130+语种和8万专业词汇。讯飞还举办多语言国际研讨会,汇聚20国30位专家,构建亚欧学术交流平台。作为中国AI领军企业,讯飞坚持自主可控技术路线,打造开放共赢生态,已在新加坡等地建立站点,拥有52.4万海外开发者。从大阪世博会到WAIC,讯飞正推动中国AI技术走向全球舞台中央,展现中国智慧。

  • 博士水平的GPT-5依然翻车 OpenAI奥特曼:AGI已失去意义

    上周末OpenAI公司发布了传闻已久的GPT-5大模型,号称迄今为止最先进的人工智能模型,具备博士级别的智能水平。 GPT-5发布之后在多个榜单上确实刷榜了,包括编程、数学等,总计拿到了25个榜单的第一,评分表现很震撼。 然而上线之后,GPT-5的实际表现引发质疑,跑分第一不代表实际体验第一,甚至被不少用户认为表现倒退了,反应也变慢,这可能是OpenAI翻车最快的旗舰大�

  • GPT5上线大翻车!用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

    OpenAI发布最强AI模型GPT-5,但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降,且官方突然下架GPT-4o等8个旧模型,导致付费用户抗议。部分用户对旧版产生情感依赖,认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升,但交互体验明显退步。CEO承认低估用户对旧版的喜爱,承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减,面临数据质量和算力成本限制。总体而言,GPT-5在技术指标进步的同时,牺牲了情感交互体验。

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

  • GPT-5有望明天发布 OpenAI:免费无限使用

    OpenAI宣布将于太平洋时间7月4日上午10点(北京时间7月5日凌晨1点)举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM",引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能,但会设置防滥用阈值;Plus和Pro用户则可享受更智能的GPT-5服务,包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实,这将是AI爱好者的重大福利,也将进一步提升ChatGPT的实用性和用户体验。

  • 减少幻觉、不再谄媚!OpenAI:即日起 史上最强大的GPT-5将免费提供给用户

    这是我们迄今为止最智能、最快、最实用的模型,具有内置思维,可将专家级智能交到每个人手中。” OpenAI在官方新闻稿中写道,这是我们迄今为止最优秀的人工智能系统。GPT-5的智能性能远超我们之前的所有模型,在编码、数学、写作、健康、视觉感知等领域均拥有卓越的性能。 GPT-5 不仅在基准测试中超越了之前的模型,回答问题的速度也更快,而且最重要的是,它对现�

  • OpenAI再获巨额融资:估值突破3000亿美元

    OpenAI宣布成功完成新一轮融资,筹集资金高达83亿美元,公司的估值也首次突破3000亿美元大关。此次融资的规模和速度令人瞩目,这再次彰显了人工智能领域竞争的激烈程度。 OpenAI的最新融资计划提前完成,距离年初的融资目标提前数月达到。此前,OpenAI曾宣布计划在2025年筹集40亿美元的资金,软银已承诺提供30亿美元的资金支持。 其中,最大投资者是龙骑士投资集团(Drago

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • 卡萨帝致境厨电4倍增长!再上新“AI之眼”瞄准下一增长点

    2025年上半年厨电行业加速高端化与智能化升级,国家"以旧换新"补贴政策持续刺激消费需求。卡萨帝表现亮眼,其致境系列零售额同比增长4倍。7月卡萨帝推出搭载"AI之眼"科技的致境Ultra套系,引领行业创新。数据显示2025H1厨电行业增速达10.2%,智能烹饪类产品销量增长45%。卡萨帝烟机采用325mm超薄机身设计,蒸烤箱实现全嵌全隐,完美契合现代家居美学需求。其新一代产品搭载AI技术,可实现自动看火、食材识别等智能功能,重塑高端烹饪体验。厨电行业正通过成套化场景解决方案,满足用户对烹饪体验与便捷度的多元化需求。

  • 阿迪耐克下场:3000元一件的宠物服饰是「金矿」?

    “人不如狗”系列又更新了——来自日本的Alphaicon(下文简称Alp)突然走红,原价约340元人民币的爆款摇粒绒四脚衣在部分二手平台被炒到3000元左右,涨价近十倍依然“一衣难求”;专做斗牛犬服饰的Spark Paws则在全球范围火速流行,年营收突破1600万美元。 宠物服饰品类从小众细分走到了高光之下。头部运动服饰、快时尚品牌也争相下场: · 阿迪的Adidas Originals宠物系列7月5日�