首页 > 传媒 > 关键词  > GPT-5发布最新资讯  > 正文

OpenAI和科大讯飞,瞄准了同一件事

2025-08-12 09:18 · 稿源: 站长之家用户

夏季大模型行业的密集上新随着上周GPT-5的推出终于落下帷幕。北京时间8月8日凌晨,OpenAI正式发布下一代旗舰模型GPT-5,距离上代模型GPT-4的推出已经过去了29个月。

但GPT-5上线初期的反馈却有些两极分化。GPT-5仍然是当前能力最为全面的模型,但和此前OpenAI一直保持着断代式的模型性能领先相比,GPT-5并未与市场主流模型拉开显著差距,部分基准测试场景下甚至被马斯克的Grok4或者同期发布的Claude Opus4.1超越。

部分原因在于OpenAI的先发优势正在减弱,但更关键的原因或许在于OpenAI试图将大模型从“能用”推向“好用”。和此前发布的旗舰模型不同,OpenAI在此次GPT-5发布会中尤其强调他们在减少模型幻觉、提升指令遵循能力和降低模型谄媚性方面的进展。

这和此前国内大模型代表星火 X1的升级不谋而合。作为当前市面上唯一全栈自主可控的全国产大模型,星火X1在7月25日的升级同样着重强调对大模型实用痛点尤其是幻觉问题的精准攻克上。

在对模型幻觉问题治理上,星火X1取得显著突破,无论是对自身生成内容真实性的把控(事实性幻觉治理),还是参考外部资料时对原文的忠实程度都有显著改善(忠诚性幻觉治理),大大提升了大模型在行业应用中的可靠性。

甚至二者在技术路线的探索上都颇为一致。OpenAI在官网介绍,针对模型幻觉问题,他们在GPT-5训练中加入了多目标奖励机制以及思维链监控等手段,来改善模型幻觉问题。多目标奖励改变了此前模型单一奖惩机制容易迎合用户的弊病,即便模型给出不确定性回答也可以得到正向反馈,思维链监控则可以有限防止推理模型在深度思考过程中的幻觉问题。

大模型幻觉的后果

在强化学习技术上,科大讯飞同样试图改进大模型粗糙的数值奖励机制,将评语模型与细粒度反馈的强化学习技术结合起来,就像是给AI配了一个耐心的老师,能在解题的每个环节给出具体建议。这种做法让复杂的数学推理训练变得更加高效,也解决了强化学习训练中“奖励太少”的痛点问题。

此外,科大讯飞提出的基于多路径采样验证及事实性约束强化学习的幻觉治理技术,则可以在大模型思考过程及恢复生成阶段,实现客观问题与标准答案的深度对齐,从而大幅减少慢思考下的幻觉率。

但在治理模型幻觉问题上,作为大模型国家队的科大讯飞还是比OpenAI更多走了一步。科大讯飞不仅从模型训练与监督角度入手,还深入介入了大模型训练更前置的数据环节。

在此前已经建立行业高质量数据集以及讯飞知识工程平台的基础上,科大讯飞还开创性地提出了基于多路径采样验证及事实性约束强化学习的幻觉治理技术,在大模型思考过程及回复生成阶段,实现客观问题与标准答案的深度强对齐,大幅减少了在慢思考下的幻觉率让大模型回复通用常识及专业知识问题更加可靠。

从全国产大模型代表的星火X1,到海外大模型代表的GPT-5,全球顶尖大模型同时强调模型可靠性的升级。这背后是因为,大模型已经日益深入到社会应用的方方面面,在性能稳步提升的同时,也对模型的可靠性和易用性提出了更高要求。

“我们的核心追求的是模型的实际应用价值以及大众的可访问性/可负担性。我们可以发布更智能的模型,但更重要的这次的模型可以让超过十亿人受益。”OpenAI创始人兼CEO萨姆·奥尔特曼说。

纵观此次OpenAI针对GPT-5的升级,你可能会感到些许熟悉。在发布会中,模型性能的提升一笔带过,更多时间都用在了讲述GPT-5的具体行业应用,尤其是编程、写作以及医疗等三个大模型核心应用场景上。

其实,大模型行业中最早呼吁关注模型行业应用价值的正是科大讯飞。早在科大讯飞立项攻坚大模型时,就确立了“1+N”的研发方向,在研发一个通用大模型的同时,也同步推出教育、医疗、法律等行业大模型。过去几年来,讯飞星火围绕医疗、教育、法律、汽车、科研等多个重点行业发布多个行业大模型,同时与多个行业龙头、央国企展开深入合作,共同推进大模型落地应用。

7月25日全新升级的星火X1,更是科大讯飞推动模型从“能用”走向“好用”的关键一步。二者虽然只一字之差,但背后的技术深度和应用广度完全不同。升级后的星火X1已全面赋能教育、医疗、企业应用、代码、科研等行业大模型和智能体,在复杂行业场景任务上进一步满足用户核心需求。

星火代码大模型已深度赋能金融、制造、能源、科技等100余家关键领域客户,在典型应用场景中驱动研发效率提升超过50%。测试集合来源:测试集合来自认知智能全国重点实验室构建的代码实用场景测试集

大模型产业已经到了产业化与规模化落地的关键时期,大模型不仅要能用,更要好用。作为大模型产业真正的国家队代表,星火X1更是肩负着中国大模型产业真正自主可控的使命要求。在保持性能领先的同时,也要真正赋能关乎社会民生的重点行业,为世界提供第二种选择。

量子位智库

星火X1能够先于GPT-5提出大模型要从“能用”走向“好用”,要在智能领先的同时拥有更广的行业应用,这背后彰显了中国人工智能产业已经从追赶逐渐走向领先阶段。

今年是国家《新一代人工智能发展规划》“第二步”的关键之年,在人工智能基础理论实现重大突破的同时,尤为强调在技术与应用达到世界领先水平,人工智能成为带动我国产业升级和经济转型的主要动力。

作为大模型国家队的突出代表,星火X1更要率先解决横亘在大模型行业落地难的关键技术与应用难题。从这个角度上来说,星火X1已经交出了一份出色的答卷。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • 百度文心大模型X1.1正式发布:超越DeepSeek R1、打平GPT-5

    今天,在WAVE SUMMIT深度学习开发者大会2025上,百度文心大模型X1.1正式发布,在事实性、指令遵循、智能体等能力上均提升显著。 百度王海峰介绍,文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架。 一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分

    9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • 我国首个政务大模型安全国家标准发布 百度深度参与制定

    日前,我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》(下称《规范》)正式发布。百度作为核心参编单位,凭借其在人工智能安全及政务服务领域的深厚积累,深度参与了该标准的制定工作,为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头,联合百度等国内领先企业共同制定�

今日大家都在搜的词: