首页 > 传媒 > 关键词  > 天工大模型最新资讯  > 正文

「天工大模型4.0」o1版和4o版正式上线天工APP和网页 免费使用

2025-01-06 11:01 · 稿源: 站长之家用户

2024 年 11 月,昆仑万维天工大模型4.0」o1 版和4o版正式公开发布,并启动邀请测试。

今天,在 2025 年 1 月 6 日,我们正式将「天工大模型4.0」o1 版和4o版同步上线,并全量登陆天工网页和APP,人人免费可用!

作为国内首先款中文逻辑推理能力的o1 模型(Skywork o1),不仅包含上线即开源的模型,还有两款性能更强的专用版本。经过全方位的技术栈升级和模型优化,由昆仑万维自研的Skywork o1 系列能熟练处理各种推理挑战,包括数学、代码、逻辑、常识、伦理决策等问题。

「天工大模型4.0」4o版(Skywork 4o)是由昆仑万维自研的多模态模型,其赋能的实时语音对话助手Skyo,则是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具,为用户带来温暖贴心、流畅实时的对话体验。

当前,这两款模型已正式登陆昆仑万维旗下天工web与APP,全面向用户开放。

天工AI官方地址:https://www.tiangong.cn/ (进入后可直接体验o1 版)

01.

Skywork o1 为用户带来更较好的的推理能力,正式上线天工web

Skywork o1 在逻辑推理任务上性能的大幅提升,得益于天工三阶段自研的训练方案:

推理反思能力训练:Skywork o1 通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。此外,我们在版本迭代中通过大规模使用自蒸馏和拒绝采样,显著提升了模型的训练效率和逻辑推理能力。

推理能力强化学习:Skywork o1 团队研发了比较新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找理想推理路径。这也是全球初次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

相较于之前的版本,今天正式上线的Skywork o1 进行了重磅升级,主要体现在以下三个方面:

1.PRM优化

通过采用有效的数据筛选策略,仅依赖开源偏序数据集,Skywork-Reward-27B的奖励模型(RM)在RewardBench上超过此前排名首先的Nvidia-340B模型,并获得了RewardBench官方的认可转载。此外,对奖励模型的优化函数进行了详尽的增广实验,结果发现Bradley-Terry损失函数在大多数场景中具有良好的适配性。

图 1 丨天工自研Skywork-Reward(论文链接:https://arxiv.org/abs/2410.18451)

PRM应用场景扩充:相比上个版本主要侧重于数学与代码, 新版PRM增加了对更多常见推理领域的支持,例如常识推理、逻辑陷阱、伦理决策等。除了推理领域外,也针对通用领域(写作、聊天),以及多轮对话构造相应训练数据,提供了全场景的覆盖。

PRM模块化评估能力:Skywork-PRM侧重优化了对o1 风格思维链的试错与反思验证能力的支持,细粒度地为强化学习与搜索提供了更准确的奖励信号。

2.基于Q*算法的推理系统优化

Q*是一种通过借鉴人类大脑中“system 2”的思考方式,我们将大型语言模型(LLMs)的多步推理视作一个启发式搜索问题,并提出Q*线上推理框架配合模型在线思考,用以在推断过程中进行审慎规划,从而指导 LLM 的解码过程。具体来说,Q*通过学习一个 Q-value 模型作为启发式函数来估计预期的未来回报,从而能够在不针对当前任务微调 LLM 的情况下,有效地指导 LLM 选择最有前景的下一步推理。基于天工自研的Q*线上推理算法配合模型在线思考,不仅避免了大量的计算开销,也降低了在其他任务上性能退化的风险。

图 2 丨天工自研Q*(论文链接:https://arxiv.org/abs/2406.14283)

模块化的树形结构推理:通过高质量的、多样性的长思考数据对基座模型的预训练和监督微调,Skywork o1 已经具备了结构化输出回答的能力,即通过对推理过程的统筹规划进而对模型回答进行自动化分层输出,并且在推理过程中穿插反思和验证。因此,考虑到o1-style的回答通常在回复长度上远超传统模型,现有planning方法中以sentence作为step的划分方式表现得过于低效且容易产生over-thinking的现象。为此,Skywork o1 采用以 module 作为 step 的规划方式,在一定程度上提升了规划效率,同时让 PRM 能够看到更完整的模块化回答,从而做出更准确的判断并指导 LLM 进行推理。

自适应搜索资源分配:现有的已开源o1-style模型在处理简单问题上往往存在over-thinking的现象,把简单的问题复杂化并且反复验证,造成计算资源的浪费。Skywork o1 采用了自适应分配搜索资源的方式,在搜索开始之前对用户query进行难度预估,自适应地控制搜索树的宽度和深度,在简单的问题上做到快速给出回答的效果,在复杂题目上做到反复多轮验证从而提高回答的准确率。

3.创新性提出Step-DAPO算法,力争解决训练效果不稳定、计算资源开销过大等问题

针对现有RLHF算法在落地过程中存在奖励信号稀疏,训练效果不稳定,计算资源开销过大等问题,昆仑万维天工团队提出了一种新的step-level离线强化学习算法,DAPO 首先使用一个评估函数来预测每一步的推理准确性,从而为优化生成策略提供密集的信号,随后DAPO 会根据每个状态-动作对的优势来调整策略比率,从而优化推理步骤的生成。此外,DAPO 中的 Actor 和 Critic 组件分别独立训练,避免了在类似 PPO 算法常见的“Actor-Critic”共同训练不稳定问题。

图 3 丨天工自研Step-DAPO(论文链接:https://arxiv.org/abs/2412.18279)

更多关于Skywork o1 的技术报告将陆续发布,敬请期待。

全面升级且正式上线的Skywork o1 Lite / Skywork o1 Preview大幅提升了数学、代码和逻辑推理能力。我们对其进行标准数学基准测试(包括GSM8k、MATH、Gaokao、OlympiadBench、AIME- 24 以及AMC-23),以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench这四项代码基准测试上评估了Skywork o1 的代码能力。

表 1 丨Skywork o1 在数学基准评测上的表现

表 2 丨Skywork o1 在代码基准评测上的表现

*备注:对于BigCodeBench,我们采用它的instruct子集进行测试

可以看出,在数学、代码基准测试中,Skywork o1 的能力表现逼近o1-mini,显著优于行业常规通用大模型。

与此同时,针对逻辑推理测试,我们专门创建了一个私有评估集用于更好的评估类o1 模型的思考,规划以及反思等能力。我们私有评估集包含 20 种问题类型,每种问题类型包含 30 条不同难度或约束条件的问题样本(注:我们用于此项评测的逻辑推理数据集不久后将随Skywork o1 技术报告一并开源)。

评估集中所有问题类型和样本都经过挑选及人工校验,通常来说需要模型具备较强类人逻辑推理能力才能解决。经验证,目前评估集中大多数问题哪怕是对于业界 Tier1 级的常规通用大模型(例如GPT-4o或者Claude-sonnet)都是相当挑战性的。

我们评估集中若干个典型问题类型:

算24:给定若干个数字和目标,如何在一定约束条件的前提下使用给定的数字计算得到目标。

条件逻辑:这基于已知条件进行逻辑推理的约束满足问题。解题目标是通过分析这些约束条件之间的关系(互斥性或数量等),找出满足所有约束的仅有解。

密码:给定一个用某种方法加密的原文到密文样的样例,推测一个新的密文所对应的原文。

最小和:已知若干个整数数的乘积,求这些整数所能达到的最小和。

数独:9x9 的数字框,要求每一行、每一列以及每个3x3 的小框中的 9 个数字都互不相同。

一个问题类型涵盖该问题的多个变种。以“算24”为例,该问题类型涵盖的变种如下:

经典:如何用5, 5, 5,1 通过四则运算得到24。

变种1(目标变化):如何用4, 3, 5,7 通过四则运算得到36。

变种2(额外约束):如何用4, 3, 5,7 通过四则运算得到36,不能改变数字顺序也不能使用括号。

变种3(额外约束):用4, 5,10 通过四则运算得到24,要求三个数中有一个数要使用两次。

变种4(可自由使用数字):如何用 8 个 8 得到1000。

下表中我们列举了在我们专有评测集上Skywork o1 对比主流大模型的性能差异。同样的,Skywork o1 的能力著优于常规通用大模型,表现仅次于o1-mini。

表 3 丨Skywork o1 在逻辑推理评测上的表现

*备注:由于API超时的原因,OpenAI的o1 正式版无有效评测结果。

那么接下来,我们快速来看下Skywork o1 在它擅长的数学、代码和逻辑推理上的真实表现。首先,一道样本量接近 40 的“计算标准差”问题来考考它,这次的样本量对于o1 来说也并不算是一个“轻松”的计算过程。

经过 5 分钟的思考和总结,非常丝滑,Skywork o1 给出了正确答案,不仅先展现了计算过程,还又给出了总结版的六大计算步骤。接下来,再用一个很容易出错的“数独”题试试它的推理能力。

仅用时 45 秒,Skywork o1 模拟着人的思考方式,给出了最终答案,同时还自我验证了一遍逻辑推理过程,以保证无遗漏。此外,我们输入一个长文本推理问题测试下它的逻辑能力和回答效果。

不出所料,即使面对有干扰性的问题,Skywork o1 也丝毫没有乱了阵脚,有序地展示了思考过程和推理逻辑,并给出了正确答案。

02.

Skywork 4o赋能的Skyo,已全面登陆天工APP

图 4 丨天工APP中Skyo入口与界面(来源:昆仑万维)

通常情况下,用户在使用智能语音对话系统时,有两个因素将会影响使用体验:响应是否够快、回复是否自然流畅。这两点决定了语音对话 AI 的体验有多逼近真人。

传统的语音助手多采用语音识别,内容理解与语音合成三阶段的级联方案。尽管被工业界广泛应用,但系统中多个模型模块串联,使得模块间信息传递损失,模型有时不能准确理解用户输入语音的真实意图。在对系统进行优化时,还存在模块之间相互制约影响,最终导致牵一发而动全身的情况,使得效果和响应速度优化都不够理想。最终导致传统方案的响应延迟优化困难、回复自然度有限,和语音 AI 对话更像在用指令操纵机器、而不是和真人交流。

为了达成“像和真人一样说话聊天”的效果,Skyo 坚持采用更先进的创新路线,通过多模态 LLM 端到端建模,来解决这个难题。

图 5 丨Skyo所采用的语音对话框架(来源:昆仑万维)

得益于上述团队自研的多模态端到端训练方案,Skyo 真正突破了传统方案的效果边界,整个框架可以分为以下流程:

1.语音输入(Speech Query):用户通过语音说出问题或请求,这些语音内容会进入系统,作为初始的输入信号。

2.语音编码 (Speech Encoder):系统中的语音编码器(Speech Encoder)会将语音转化为具有语义特征的表征向量。

3.适配转换(Adapter):接着,语义表征通过适配器模块映射到LLM可理解的输入空间,确保它能被核心的智能模型(LLM)理解,实现语音到文本语义的无缝转换。

4.大语言模型(LLM):经过适配的语音表征输入到大语言模型中,LLM通过多模态处理能力生成响应完成任务。

5.语音输出(Speech Token):框架支持语音令牌(Speech Token)的直接输出,从而实现了跨模态的端到端输出。进一步通过扩散模型,系统将speech token重建为真实的语音回复。

通过这个端到端框架,系统能够像人类一样,听懂用户的语音,提供自然、流畅的互动体验。该端到端框架还具有以下几个鲜明的特性:

1.极低响应延迟,实时打断:得益于端到端建模,Skyo 能根据语义判断用户是否已完整表达语义,再加上较好的的延迟优化,Skyo 回复速度几乎与真人无异。

2.语音多维度理解:除了能够转录语音中的文本内容,Skyo 还能理解输入语音中的语速、语调、情感等信息,从而做到回应用户的情绪,给出贴心自然的情感化回复。

3.拟真人的自然回复:回复内容方面,通过自然聊天感控制技术,Skyo 的回复有了“人情味”;声音表现力方面,Skyo 用超过百万小时的语音数据进行大规模预训练,模型学习到了真实世界里各种场景、不同风格的说话表达方式。结合多模态理解能力,Skyo 生成的回复声音可以适配用户的情绪、对话上下文,回复声音的表现力多变且拟真。

基于这些成果,Skyo 的上线是我们在智能语音交互技术方向,从“操纵机器”迈向“和真人交流”的重要一步。

为了达到这样流畅且拟人的交互效果,昆仑万维坚持自主研发Skyo,研发团队拥有大量语音数据积累,并充分利用深厚的语音和音乐大模型的技术经验,搭建端到端自研先进链路,以保障Skyo能在多任务下表现出色,尤其在高强度多轮对话交互中仍能保持稳定性和流畅性。

Skyo研发团队通过构建大规模高质量、场景化、情感化和多样化的语音对话语料库,并基于先进的深度学习和大语言模型技术对其进行预训练与微调,显著增强了模型在对话场景中的上下文感知能力、情感理解能力和知识推理能力,从而提升其整体的对话连贯性、逻辑一致性及智能化水平。

03.

久久为功,坚定迈向AGI时代

我们相信,AGI 的实现将是科技创新的一大飞跃,它将极大地扩展我们的能力边界,释放人类潜能。

2024 年初,昆仑万维创始人周亚辉提出昆仑万维的使命是实现通用人工智能,让每个人更好地塑造和表达自我。过去两年,公司已完成“算力基础设施—大模型算法—AI应用”全产业链布局,并构建起由AI大模型、AI搜索、AI游戏、AI音乐、AI 社交、AI短剧组成的多元AI业务矩阵。

我们坚信,所有在模型与产品上进化的每一小步,都是迈向实现通用人工智能的一大步。

铸剑启新程,昂首向未来。昆仑万维仍会坚持以技术为底座,以产品为先锋,给用户带来更好的使用体验,为推动人工智能技术的发展和应用做出贡献,立志成为一家小而大美的国际化人工智能企业。

欢迎所有用户登陆天工web或下载天工APP体验比较新「天工大模型4.0」o1 版和4o版。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 昆仑万维技术周启幕:SkyReels模型重塑内容创作基建

    2025年8月11日,昆仑万维启动SkyWork+AI技术发布周,将连续五天发布五大领域AI模型:视频生成模型Skyreels、世界模型、生图一体化模型、智能体(Agent)模型和AI音乐创作模型Mureka。首日发布的Skyreels-A3是全球首个支持分钟级长视频生成的模型,通过四大技术创新解决直播电商等场景痛点,可实现180秒连贯视频生成、影视级运镜控制与自然动作交互。该模型采用多模态协同生成范式,突破传统视频生成技术误差累积限制,并通过Step蒸馏技术将推理步数压缩至4步,生成时间缩短至80秒。商业化方面,昆仑万维已形成"研发-产品变现-现金流反哺"闭环,2025年Q1经营性现金流净额增长58.3%,旗下DramaWave、Mureka等产品年化流水分别达1.2亿和1200万美元。此次技术周标志着中国AI企业首次跑通规模化盈利路径。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:昆仑万维发布SkyReels-A3模型;百度搜索PC端全面上线AI搜索;Grok 4 AI模型永久免费开放

    AI日报栏目聚焦人工智能领域最新动态:1)昆仑万维发布SkyReels-A3模型,实现语音驱动数字人生成;2)xAI宣布Grok4模型永久免费开放;3)OpenAI发布GPT-5提示词指南;4)百度PC端上线AI搜索功能;5)微软Windows Co pilot接入GPT-5;6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b;7)苹果iOS26将集成ChatGPT-5;8)谷歌推出3D视觉编辑框架BlenderFusion;9)轻量级TTS模型Kitten TTS参数仅1500万;10)MiniCPM-V

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • 如何快速精准计算AI大模型费用?试试这个三步完成的免费工具!

    文章讲述AI项目预算失控的普遍现象:李工团队因手动计算GPT-4等大模型调用成本复杂,最终预算比实际支出少25%。行业调查显示73%团队曾因模型成本失控被迫调整项目。AIbase推出三步极速成本计算器解决痛点:1)集成50+主流大模型参数库;2)用自然语言描述需求即可生成预算;3)10秒输出详细成本对比报告。该工具已帮助电商企业节省40%预算,其优势在于实时追踪官方定价、智能匹配场景规则、自动生成多模型对比报告,让晦涩的token计价变得直观透明。目前已有超12万开发者使用该工具优化AI项目成本。

今日大家都在搜的词: