「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用

2025-01-06 11:01 · 稿源：站长之家用户

2024 年 11 月，昆仑万维「天工大模型4.0」o1 版和4o版正式公开发布，并启动邀请测试。

今天，在 2025 年 1 月 6 日，我们正式将「天工大模型4.0」o1 版和4o版同步上线，并全量登陆天工网页和APP，人人免费可用！

作为国内首先款中文逻辑推理能力的o1 模型（Skywork o1），不仅包含上线即开源的模型，还有两款性能更强的专用版本。经过全方位的技术栈升级和模型优化，由昆仑万维自研的Skywork o1 系列能熟练处理各种推理挑战，包括数学、代码、逻辑、常识、伦理决策等问题。

「天工大模型4.0」4o版（Skywork 4o）是由昆仑万维自研的多模态模型，其赋能的实时语音对话助手Skyo，则是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具，为用户带来温暖贴心、流畅实时的对话体验。

当前，这两款模型已正式登陆昆仑万维旗下天工web与APP，全面向用户开放。

天工AI官方地址：https://www.tiangong.cn/ （进入后可直接体验o1 版）

01.

Skywork o1 为用户带来更较好的的推理能力，正式上线天工web

Skywork o1 在逻辑推理任务上性能的大幅提升，得益于天工三阶段自研的训练方案：

推理反思能力训练：Skywork o1 通过自研的多智能体体系构造高质量的分步思考，反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。此外，我们在版本迭代中通过大规模使用自蒸馏和拒绝采样，显著提升了模型的训练效率和逻辑推理能力。

推理能力强化学习：Skywork o1 团队研发了比较新的适配分步推理强化的Skywork o1 Process Reward Model（PRM）。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

推理planning：基于天工自研的Q*线上推理算法配合模型在线思考，并寻找理想推理路径。这也是全球初次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

相较于之前的版本，今天正式上线的Skywork o1 进行了重磅升级，主要体现在以下三个方面：

1.PRM优化

通过采用有效的数据筛选策略，仅依赖开源偏序数据集，Skywork-Reward-27B的奖励模型（RM）在RewardBench上超过此前排名首先的Nvidia-340B模型，并获得了RewardBench官方的认可转载。此外，对奖励模型的优化函数进行了详尽的增广实验，结果发现Bradley-Terry损失函数在大多数场景中具有良好的适配性。

图 1 丨天工自研Skywork-Reward（论文链接：https://arxiv.org/abs/2410.18451）

PRM应用场景扩充：相比上个版本主要侧重于数学与代码，新版PRM增加了对更多常见推理领域的支持，例如常识推理、逻辑陷阱、伦理决策等。除了推理领域外，也针对通用领域（写作、聊天），以及多轮对话构造相应训练数据，提供了全场景的覆盖。

PRM模块化评估能力：Skywork-PRM侧重优化了对o1 风格思维链的试错与反思验证能力的支持，细粒度地为强化学习与搜索提供了更准确的奖励信号。

2.基于Q*算法的推理系统优化

Q*是一种通过借鉴人类大脑中“system 2”的思考方式，我们将大型语言模型（LLMs）的多步推理视作一个启发式搜索问题，并提出Q*线上推理框架配合模型在线思考，用以在推断过程中进行审慎规划，从而指导 LLM 的解码过程。具体来说，Q*通过学习一个 Q-value 模型作为启发式函数来估计预期的未来回报，从而能够在不针对当前任务微调 LLM 的情况下，有效地指导 LLM 选择最有前景的下一步推理。基于天工自研的Q*线上推理算法配合模型在线思考，不仅避免了大量的计算开销，也降低了在其他任务上性能退化的风险。

图 2 丨天工自研Q*（论文链接：https://arxiv.org/abs/2406.14283）

模块化的树形结构推理：通过高质量的、多样性的长思考数据对基座模型的预训练和监督微调，Skywork o1 已经具备了结构化输出回答的能力，即通过对推理过程的统筹规划进而对模型回答进行自动化分层输出，并且在推理过程中穿插反思和验证。因此，考虑到o1-style的回答通常在回复长度上远超传统模型，现有planning方法中以sentence作为step的划分方式表现得过于低效且容易产生over-thinking的现象。为此，Skywork o1 采用以 module 作为 step 的规划方式，在一定程度上提升了规划效率，同时让 PRM 能够看到更完整的模块化回答，从而做出更准确的判断并指导 LLM 进行推理。

自适应搜索资源分配：现有的已开源o1-style模型在处理简单问题上往往存在over-thinking的现象，把简单的问题复杂化并且反复验证，造成计算资源的浪费。Skywork o1 采用了自适应分配搜索资源的方式，在搜索开始之前对用户query进行难度预估，自适应地控制搜索树的宽度和深度，在简单的问题上做到快速给出回答的效果，在复杂题目上做到反复多轮验证从而提高回答的准确率。

3.创新性提出Step-DAPO算法，力争解决训练效果不稳定、计算资源开销过大等问题

针对现有RLHF算法在落地过程中存在奖励信号稀疏，训练效果不稳定，计算资源开销过大等问题，昆仑万维天工团队提出了一种新的step-level离线强化学习算法，DAPO 首先使用一个评估函数来预测每一步的推理准确性，从而为优化生成策略提供密集的信号，随后DAPO 会根据每个状态-动作对的优势来调整策略比率，从而优化推理步骤的生成。此外，DAPO 中的 Actor 和 Critic 组件分别独立训练，避免了在类似 PPO 算法常见的“Actor-Critic”共同训练不稳定问题。

图 3 丨天工自研Step-DAPO（论文链接：https://arxiv.org/abs/2412.18279）

更多关于Skywork o1 的技术报告将陆续发布，敬请期待。

全面升级且正式上线的Skywork o1 Lite / Skywork o1 Preview大幅提升了数学、代码和逻辑推理能力。我们对其进行标准数学基准测试（包括GSM8k、MATH、Gaokao、OlympiadBench、AIME- 24 以及AMC-23），以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench这四项代码基准测试上评估了Skywork o1 的代码能力。

表 1 丨Skywork o1 在数学基准评测上的表现

表 2 丨Skywork o1 在代码基准评测上的表现

*备注：对于BigCodeBench，我们采用它的instruct子集进行测试

可以看出，在数学、代码基准测试中，Skywork o1 的能力表现逼近o1-mini，显著优于行业常规通用大模型。

与此同时，针对逻辑推理测试，我们专门创建了一个私有评估集用于更好的评估类o1 模型的思考，规划以及反思等能力。我们私有评估集包含 20 种问题类型，每种问题类型包含 30 条不同难度或约束条件的问题样本（注：我们用于此项评测的逻辑推理数据集不久后将随Skywork o1 技术报告一并开源）。

评估集中所有问题类型和样本都经过挑选及人工校验，通常来说需要模型具备较强类人逻辑推理能力才能解决。经验证，目前评估集中大多数问题哪怕是对于业界 Tier1 级的常规通用大模型（例如GPT-4o或者Claude-sonnet）都是相当挑战性的。

我们评估集中若干个典型问题类型：

算24：给定若干个数字和目标，如何在一定约束条件的前提下使用给定的数字计算得到目标。

条件逻辑：这基于已知条件进行逻辑推理的约束满足问题。解题目标是通过分析这些约束条件之间的关系（互斥性或数量等），找出满足所有约束的仅有解。

密码：给定一个用某种方法加密的原文到密文样的样例，推测一个新的密文所对应的原文。

最小和：已知若干个整数数的乘积，求这些整数所能达到的最小和。

数独：9x9 的数字框，要求每一行、每一列以及每个3x3 的小框中的 9 个数字都互不相同。

一个问题类型涵盖该问题的多个变种。以“算24”为例，该问题类型涵盖的变种如下：

经典：如何用5， 5， 5，1 通过四则运算得到24。

变种1（目标变化）：如何用4， 3， 5，7 通过四则运算得到36。

变种2（额外约束）：如何用4， 3， 5，7 通过四则运算得到36，不能改变数字顺序也不能使用括号。

变种3（额外约束）：用4， 5，10 通过四则运算得到24，要求三个数中有一个数要使用两次。

变种4（可自由使用数字）：如何用 8 个 8 得到1000。

下表中我们列举了在我们专有评测集上Skywork o1 对比主流大模型的性能差异。同样的，Skywork o1 的能力著优于常规通用大模型，表现仅次于o1-mini。

表 3 丨Skywork o1 在逻辑推理评测上的表现

*备注：由于API超时的原因，OpenAI的o1 正式版无有效评测结果。

那么接下来，我们快速来看下Skywork o1 在它擅长的数学、代码和逻辑推理上的真实表现。首先，一道样本量接近 40 的“计算标准差”问题来考考它，这次的样本量对于o1 来说也并不算是一个“轻松”的计算过程。

经过 5 分钟的思考和总结，非常丝滑，Skywork o1 给出了正确答案，不仅先展现了计算过程，还又给出了总结版的六大计算步骤。接下来，再用一个很容易出错的“数独”题试试它的推理能力。

仅用时 45 秒，Skywork o1 模拟着人的思考方式，给出了最终答案，同时还自我验证了一遍逻辑推理过程，以保证无遗漏。此外，我们输入一个长文本推理问题测试下它的逻辑能力和回答效果。

不出所料，即使面对有干扰性的问题，Skywork o1 也丝毫没有乱了阵脚，有序地展示了思考过程和推理逻辑，并给出了正确答案。

02.

Skywork 4o赋能的Skyo，已全面登陆天工APP

图 4 丨天工APP中Skyo入口与界面（来源：昆仑万维）

通常情况下，用户在使用智能语音对话系统时，有两个因素将会影响使用体验：响应是否够快、回复是否自然流畅。这两点决定了语音对话 AI 的体验有多逼近真人。

传统的语音助手多采用语音识别，内容理解与语音合成三阶段的级联方案。尽管被工业界广泛应用，但系统中多个模型模块串联，使得模块间信息传递损失，模型有时不能准确理解用户输入语音的真实意图。在对系统进行优化时，还存在模块之间相互制约影响，最终导致牵一发而动全身的情况，使得效果和响应速度优化都不够理想。最终导致传统方案的响应延迟优化困难、回复自然度有限，和语音 AI 对话更像在用指令操纵机器、而不是和真人交流。

为了达成“像和真人一样说话聊天”的效果，Skyo 坚持采用更先进的创新路线，通过多模态 LLM 端到端建模，来解决这个难题。

图 5 丨Skyo所采用的语音对话框架（来源：昆仑万维）

得益于上述团队自研的多模态端到端训练方案，Skyo 真正突破了传统方案的效果边界，整个框架可以分为以下流程：

1.语音输入（Speech Query）：用户通过语音说出问题或请求，这些语音内容会进入系统，作为初始的输入信号。

2.语音编码（Speech Encoder）：系统中的语音编码器(Speech Encoder)会将语音转化为具有语义特征的表征向量。

3.适配转换（Adapter）：接着，语义表征通过适配器模块映射到LLM可理解的输入空间，确保它能被核心的智能模型（LLM）理解，实现语音到文本语义的无缝转换。

4.大语言模型（LLM）：经过适配的语音表征输入到大语言模型中，LLM通过多模态处理能力生成响应完成任务。

5.语音输出（Speech Token）：框架支持语音令牌（Speech Token）的直接输出，从而实现了跨模态的端到端输出。进一步通过扩散模型，系统将speech token重建为真实的语音回复。

通过这个端到端框架，系统能够像人类一样，听懂用户的语音，提供自然、流畅的互动体验。该端到端框架还具有以下几个鲜明的特性：

1.极低响应延迟，实时打断：得益于端到端建模，Skyo 能根据语义判断用户是否已完整表达语义，再加上较好的的延迟优化，Skyo 回复速度几乎与真人无异。

2.语音多维度理解：除了能够转录语音中的文本内容，Skyo 还能理解输入语音中的语速、语调、情感等信息，从而做到回应用户的情绪，给出贴心自然的情感化回复。

3.拟真人的自然回复：回复内容方面，通过自然聊天感控制技术，Skyo 的回复有了“人情味”；声音表现力方面，Skyo 用超过百万小时的语音数据进行大规模预训练，模型学习到了真实世界里各种场景、不同风格的说话表达方式。结合多模态理解能力，Skyo 生成的回复声音可以适配用户的情绪、对话上下文，回复声音的表现力多变且拟真。

基于这些成果，Skyo 的上线是我们在智能语音交互技术方向，从“操纵机器”迈向“和真人交流”的重要一步。

为了达到这样流畅且拟人的交互效果，昆仑万维坚持自主研发Skyo，研发团队拥有大量语音数据积累，并充分利用深厚的语音和音乐大模型的技术经验，搭建端到端自研先进链路，以保障Skyo能在多任务下表现出色，尤其在高强度多轮对话交互中仍能保持稳定性和流畅性。

Skyo研发团队通过构建大规模高质量、场景化、情感化和多样化的语音对话语料库，并基于先进的深度学习和大语言模型技术对其进行预训练与微调，显著增强了模型在对话场景中的上下文感知能力、情感理解能力和知识推理能力，从而提升其整体的对话连贯性、逻辑一致性及智能化水平。

03.

久久为功，坚定迈向AGI时代

我们相信，AGI 的实现将是科技创新的一大飞跃，它将极大地扩展我们的能力边界，释放人类潜能。

2024 年初，昆仑万维创始人周亚辉提出昆仑万维的使命是实现通用人工智能，让每个人更好地塑造和表达自我。过去两年，公司已完成“算力基础设施—大模型算法—AI应用”全产业链布局，并构建起由AI大模型、AI搜索、AI游戏、AI音乐、AI 社交、AI短剧组成的多元AI业务矩阵。

我们坚信，所有在模型与产品上进化的每一小步，都是迈向实现通用人工智能的一大步。

铸剑启新程，昂首向未来。昆仑万维仍会坚持以技术为底座，以产品为先锋，给用户带来更好的使用体验，为推动人工智能技术的发展和应用做出贡献，立志成为一家小而大美的国际化人工智能企业。

欢迎所有用户登陆天工web或下载天工APP体验比较新「天工大模型4.0」o1 版和4o版。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

荐AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

AI日报汇总最新行业动态：腾讯发布混元3D+3.0模型，建模精度提升3倍；昆仑万维Mureka上线音乐创作功能；阿里Qoder推出付费订阅服务；VEED Fabric 1.0实现图片转视频；OpenAI发布GPT-5-Codex革新编程；全国发布AI安全治理框架2.0；Mini-o3实现超长视觉推理；上海AI Lab推出多模态模型Lumina-DiMOO；腾讯微调技术提升图像美感300%；Meta推出轻量级MobileLLM-R1；腾讯启动AI应用繁荣计划；谷歌DeepMind�

AI日报腾讯混元3D 3D建模
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
荐没想到，音频大模型开源最彻底的，居然是小红书

不难发现，近几个月，开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说，开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示，国内厂商在七八月接连开源33款、31款各类型大模型。这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域，而音频生成占比很小。

开源 AI社区音频生成
小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

小度科技推出首款多模态智能摄像机C800，搭载800万像素4K超清摄像头，支持AI大模型技术。该产品不仅能实现高清监控，还具备智能行为识别、语音交互等功能，可自定义看护提醒。结合视觉与语音交互，支持复杂语义查询和家庭设备联动，扩展智能家居应用场景。目前产品已全网发售，年底还将推出三摄版本，持续探索AI硬件创新。

AI大模型智能硬件小度科技
GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

随着AI大模型成为用户获取信息的主要入口，AIBase推出GEO排名查询工具，帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示，可精准分析品牌是否被推荐、出现频次及具体场景，为制定AI大模型排名优化策略提供数据支撑。在GEO时代，抢占AI回答推荐位意味着获得全新流量入口。

AI大模型 GEO排名查询生成引擎优化
云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

9月24日，2025云栖大会在杭州开幕，主题为“云智一体·碳硅共生”，汇聚全球50多国2000余位嘉宾探讨AI、云计算与产业应用趋势。阿里云发布7款通义大模型，其中Qwen3-Omni作为行业首个端到端全模态AI大模型，在36项基准测试中实现22项SOTA，性能全面突破。大会聚焦多模态技术，斑马智行宣布率先接入Qwen3-Omni，并与阿里云、高通联合推出端到端全模态端侧大模型方案Auto+Omni，具备主动智能、断网可用、隐私无忧三大特点，推动汽车智能座舱从指令交互向Always-on主动服务升级。首批搭载方案车型将于2026年量产，标志着汽车智能化迈入“自主行动”新阶段。大会将持续至26日，预计更多创新技术将亮相。

云栖大会通义大模型 AI技术
云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

云天励飞近日加入OISA生态，携手产业伙伴共建国产AI芯片互联体系，为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系，旨在打造全向、对等、智能的互联新范式，解决智算集群内存互访难题，为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累，将依托“算力积木”架构的模块化优势，在大规模推理集群中实现高效互联，助力突破万级MoE大模型推理瓶颈，推动国产算力生态发展。

云天励飞 OISA生态 AI芯片互联
深度解读丨悠然无界大模型BLM-1.0：跨空间、跨任务与跨本体泛化的里程碑

9月28日，悠然大模型BLM-1.0完成迭代升级并全面开源。该模型突破数字与物理世界壁垒，实现跨空间迁移、跨任务学习与跨本体泛化能力，以统一模型覆盖多种机器人平台。在空间理解、推理与执行评估中综合超越同规模SOTA方法，支持工业制造、智慧城市等场景应用，推动空间智能生态共建。

悠然无界大模型 BLM-1.0 开源模型权重
易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

AI应用汽车金融金融科技
推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

Momenta作为国内智能驾驶领域的领先者，凭借其创新的飞轮大模型技术，实现了端到端的自动驾驶解决方案。该技术将感知与规划整合，有效解决长尾问题，提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习，具备持续进化能力，适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作，方案已成功应用于广汽丰田、东风日产等车型，并在欧洲、澳大利亚等市场落地，展现出强大的全球适应性和技术优势。选择Momenta，即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

智能驾驶系统技术实力 Momenta

今日大家都在搜的词：

热文

3 天
7天

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用

荐AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

荐没想到，音频大模型开源最彻底的，居然是小红书

小度发布多模态智能摄像机，AI大模型重塑家庭看护体验

GEO排名查询工具推荐:霸屏AI大模型答案的核心方法，做好AI大模型排名优化

云栖大会智舱黑科技：全球首个全模态端侧大模型解决方案，斑马智行首发

云天励飞“算力积木”联手OISA，突破万亿级MoE大模型推理集群的Scale up瓶颈

深度解读丨悠然无界大模型BLM-1.0：跨空间、跨任务与跨本体泛化的里程碑

易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

推荐国内优势智驾：Momenta凭借飞轮大模型，带来极致流畅的驾驶体验

今日大家都在搜的词：

热文

比特币价格突破12.5万美元刷新历史最高纪录

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

马斯克个人财富达5000亿美元特斯拉市值飙升助力

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

站长商机

「天工大模型4.0」o1版和4o版正式上线天工APP和网页 免费使用

今日大家都在搜的词：

热文

站长商机

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用