昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2

2023-09-18 08:18 · 稿源：站长之家

站长之家（ChinaZ.com）9月18日消息:昆仑万维表示，其自研的天工大模型在 Benchmark GSM8K 测试中取得了80% 的正确率，超过了 GPT-3.5和 LLaMA2-70B，达到了全球领先水平，接近于 GPT-4。

天工大模型还在 MMLU、C-EVAL、HumanEval 等多个数据集上表现出色，准确率均高于其他主流大模型。同样，在中文开源数据集 CMATH 测试中，天工大模型也表现优秀，准确率超过了其他主流大模型。

微信截图_20230918081839.png

昆仑万维表示，天工大模型的优秀表现得益于其对多数据源的高效融合策略、不同语言间的能力迁移以及对基座逻辑推理能力的深入探索。与 GPT-3.5相比，天工大模型的解题思路更为简单、清晰。

天工大模型目前仍处于内测阶段，将持续提升技术实力，为用户和企业提供强大的智能化助力。

（举报）

相关推荐

关键词：

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

大模型又迎来新一波的迭代周期。近日，从Open AI发布GPT-5，到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周，连续5天每天发布一个新模型，而8月13日发布的，正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是，在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

大模型多模态 AI生图
昆仑万维技术周启幕：SkyReels模型重塑内容创作基建

2025年8月11日，昆仑万维启动SkyWork+AI技术发布周，将连续五天发布五大领域AI模型：视频生成模型Skyreels、世界模型、生图一体化模型、智能体(Agent)模型和AI音乐创作模型Mureka。首日发布的Skyreels-A3是全球首个支持分钟级长视频生成的模型，通过四大技术创新解决直播电商等场景痛点，可实现180秒连贯视频生成、影视级运镜控制与自然动作交互。该模型采用多模态协同生成范式，突破传统视频生成技术误差累积限制，并通过Step蒸馏技术将推理步数压缩至4步，生成时间缩短至80秒。商业化方面，昆仑万维已形成"研发-产品变现-现金流反哺"闭环，2025年Q1经营性现金流净额增长58.3%，旗下DramaWave、Mureka等产品年化流水分别达1.2亿和1200万美元。此次技术周标志着中国AI企业首次跑通规模化盈利路径。

AI技术多模态AI 视频生成
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
荐AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型永久免费开放

AI日报栏目聚焦人工智能领域最新动态：1)昆仑万维发布SkyReels-A3模型，实现语音驱动数字人生成；2)xAI宣布Grok4模型永久免费开放；3)OpenAI发布GPT-5提示词指南；4)百度PC端上线AI搜索功能；5)微软Windows Co pilot接入GPT-5；6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b；7)苹果iOS26将集成ChatGPT-5；8)谷歌推出3D视觉编辑框架BlenderFusion；9)轻量级TTS模型Kitten TTS参数仅1500万；10)MiniCPM-V

AI技术数字人创作语音驱动
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
荐AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

【AI日报】汇总了最新AI领域动态：1)腾讯开源混元系列小尺寸模型，适用于消费级显卡；2)昆仑万维发布推理大模型MindLink，提升回答透明度；3)B站推出AI原声翻译功能，保留UP主音色；4)谷歌Gemini 2.5在数学奥赛夺金，展现强大推理能力；5)OpenAI展示GPT-5网络信息整合特性；6)苹果组建AI团队挑战ChatGPT；7)高德地图推出全球首个AI原生地图应用；8)Adobe推出AI图像合成工具Harmonize；9)NVIDIA发布革命性视频渲染技术；10)谷歌推出Android Studio免费AI编程助手；11)开源结构化信息提取工具LangExtract；12)Figma开发者模式升级提升设计转代码效率。

人工智能开源模型腾讯混元
GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

OpenAI正式发布GPT-5，与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出；Claude4Opus编程优异(72.5%)但数学较弱(33.9%)；Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面，GPT-5和Gemini2.5Pro定价相近($1.25-$10)，Claude4Opus较高($15-$75)。建议根据需求选择：GPT-5适合综合应用，Claude4Opus适合专业编程，Gemini2.5Pro适合长文档�

GPT-5发布大语言模型性能对比
GPT-5正式发布：与Claude 4、Gemini 2.5等主流大模型谁更胜一筹？

2025年8月7日，OpenAI正式发布GPT-5，官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升，在AIME2025测试中取得94.6%的高分，处理速度也有明显改善。但与竞争对手相比仍存在差距：Claude4在代码生成和逻辑推理方面表现优异，支持200K token长文本；Gemini2.5具备2M超大上下文窗口和全模态支持；国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�
OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI发布开源模型系列GPT-OSS，包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构，20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口，支持动态参数调节和任务微调优化，性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能，包括网页交互和Python代码执行，在标准化测试中表现优异。开源策略为开发者提供高性能替代方案，重新定义了AI模型的应用边界。

人工智能开源模型 OpenAI
15天快装开业，Lamett乐迈石晶地墙品类投资模式解析

贝壳研究院数据显示，2025年中国存量房装修市场规模将达3.34万亿元，消费者对健康环保、便捷高效的家装需求持续攀升。乐迈石晶作为全球石晶品类开创者，推出"100㎡开店、10余万投资、15天极速开业"轻资产模式，携手经销商掘金"新房整装+旧房改造"市场。其首创的石晶地板和石晶柜板技术，实现从地面材料向墙面、柜体等全屋空间应用的跨越，构建"地墙柜一体化"健康整装系统。凭借"零醛添加、防水防潮"等核心性能优势，石晶材料正加速替代传统建材。目前乐迈石晶在全球拥有10余家工厂及销售机构，业务遍及80多个国家和地区，为高端住宅及商业空间提供整体解决方案。

存量房装修市场健康环保家装乐迈石晶招商

今日大家都在搜的词：

热文

3 天
7天

昆仑万维：天工大模型推理能力超过GPT-3.5和LLaMA2

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

昆仑万维技术周启幕：SkyReels模型重塑内容创作基建

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

荐AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型永久免费开放

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

荐AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

GPT-5正式发布：与Claude 4、Gemini 2.5等主流大模型谁更胜一筹？

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

15天快装开业，Lamett乐迈石晶地墙品类投资模式解析

今日大家都在搜的词：

热文

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

REDMI Note 15 Pro+外观公布：配备全等深微曲屏幕与机身

享界S9T开启预售：32.8万起华为鸿蒙智行旗下首款旅行车

真我15系列官宣9月发布号称轻薄影像神器

王腾晒出REDMI Note 15 Pro：云霞紫配色亮相

曝iPhone18标准版推迟到2027年折叠屏与Pro系列率先登场

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为MatePad Air 12英寸2025发布：售价2799元起

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

苹果正式入驻小红书 iPhone 17系列下月发布

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air新款官宣8月15日发布

站长商机