首页 > 业界 > 关键词  > 正文

昆仑万维:天工大模型推理能力超过GPT-3.5和LLaMA2

2023-09-18 08:18 · 稿源:站长之家

站长之家(ChinaZ.com)9月18日 消息:昆仑万维表示,其自研的天工大模型在 Benchmark GSM8K 测试中取得了80% 的正确率,超过了 GPT-3.5和 LLaMA2-70B,达到了全球领先水平,接近于 GPT-4。

天工大模型还在 MMLU、C-EVAL、HumanEval 等多个数据集上表现出色,准确率均高于其他主流大模型。同样,在中文开源数据集 CMATH 测试中,天工大模型也表现优秀,准确率超过了其他主流大模型。

微信截图_20230918081839.png

昆仑万维表示,天工大模型的优秀表现得益于其对多数据源的高效融合策略、不同语言间的能力迁移以及对基座逻辑推理能力的深入探索。与 GPT-3.5相比,天工大模型的解题思路更为简单、清晰。

天工大模型目前仍处于内测阶段,将持续提升技术实力,为用户和企业提供强大的智能化助力。

举报

  • 相关推荐
  • 小米大模型推理速度全球最快!1000 tokens/s是啥概念:官方科普

    日前,小米正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式。 据介绍,这是全球首个在通用GPU上突破1000 tokens/s的万亿参数模型,刷新了旗舰模型的全球最快推理速度。 今日,小米技术”公众号发文科普了什么是1000 tokens/s,以及这一速度到底有多快。 小米表示,token即词元,是大模型中的计量单位,类似日常买菜时使用的斤”两”。 1000 tokens/s也就是1000 Tokens Per Second,简称1000 TPS,意

  • 京东云率先上线MiniMax M3:显著提升模型推理吞吐

    MiniMax M3正式上线,京东云JoyBuilder模型开发平台已第一时间接入MiniMax M3模型并同步开放服务。 依托京东云自研推理框架,JoyBuilder采用了PD分离部署、KV Cache缓存、投机采样等先进推理优化技术,显著提升了模型推理吞吐量与响应效率。 MiniMax M3在编程、智能体等专业任务上达到了前沿水平。其采用全新的MiniMax稀疏注意力架构(MSA),最高支持100万token的超长上下文。作为一款�

  • 上海交大 × 百度百舸,新型异步 WAM 模型破解机器人落地难题

    上海交大与百度推出机器人操控模型AHA-WAM,以异步架构破解世界-动作模型延迟难题,将视觉分析移出控制链路,实现“慢思考、快执行”。无需大数据预训练即达SOTA,控制频率从5.26Hz跃升至24.17Hz,轻量版更达56.95Hz,延时压缩至41ms,成功率达78.3%,为高实时商用落地开辟新路径。

  • 阿里发布首个具身大模型Qwen-Robot系列:三个模型支持协同运转

    近日阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列,涵盖VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav与世界模型Qwen-RobotWorld三大核心模型。 这是千问大模型家族首个完整的具身智能模型矩阵三个模型分别为机器人赋予操作能力、导航能力和环境认知能力,既可独立部署,亦可协同运转,为各类形态的机器人走向真实场景提供了统一的通用底座”。 当前,全球具身智�

  • 机器人伴侣仅限成人购买使用:内置养成系专属情感大模型

    上线仅10天,主打情感陪伴的人形机器人U1为优必选收获了超过3800台预售订单,对应定金总额逾千万元。对于去年仅售出1079台人形机器人的优必选而言,这次尝试已算小有突破”。 U1系列分男女两款机型:男款身高183厘米、重42公斤;女款身高168厘米、重35.2公斤。 两款均支持Wi-Fi连接,单次充电续航2至4小时,无3C”认证,配备88个高自由度运动关节,搭载养成系”情感大模型

  • AI日报:OpenAI未官宣新旗舰GPT-5.6意外曝光;昆仑万维发布天工SkyClaw-v1.0;阿里 Qwen3.7-Max 编程能力全球登顶第二

    本期AI日报涵盖多项前沿动态:OpenAI未官宣的GPT-5.6意外曝光,拥有150万token超长上下文,预计圆月发布;昆仑万维推出高性能Agent模型SkyClaw-v1.0,支持百万token上下文;阿里Qwen3.7-Max编程能力全球第二,Code Arena得分1541;商汤Seko AI发布生产链Seko Space,加速漫短剧工业化;Hyper3D Rodin Gen-2.5实现4秒百万面、千万面级3D生成;抖音AI治理谣言,处置浏览下降62%;苹果Siri升级采用谷歌1.2万亿参数模型,本地运行成关键;支付宝完成3亿笔AI支付,发布Token Pay和AI钱包。

  • 大模型调用成本暴跌90%,盘活数据成为企业AI落地胜负手

    本月DeepSeek V4Pro开启永久降价,价格仅为原来的四分之一,缓存命中低至0.025元每百万token,引发行业“跳水式降价”。随着模型效率提升、算力成本优化和市场竞争加剧,大模型调用成本全面下行已成共识。国内公有云大模型API均价较2023年已下跌超90%,性能提升3至5倍。AI普惠时代来临,企业接入门槛快速抹平,但决定AI落地效果的核心变量转向企业自身的数据根基。数据准确性、治理规范、权限管理及智能体对核心数据的安全高效访问,直接影响AI应用效果。Gartner研究显示,85%的失败AI项目源于数据质量缺陷。数据底座正成为企业业务效率与决策方式的关键基础设施,逻辑数据管理路径被越来越多企业验证:在分布式环境上构建可信、实时、可治理的逻辑数据层,让智能体在不触碰数据物理位置的情况下安全、准确、实时获取所需,将AI能力真正嵌入业务流程。Agent时代,模型是入场券,数据才是护城河。

  • 科技照进现实 鸿蒙原生首个3D大模型AI应用V2Fun正式发布

    6月13日,华为HDC2026大会上,Vertex Lab旗下V2Fun鸿蒙原生App正式亮相并上线应用市场。作为鸿蒙首个3D大模型AI原生应用,V2Fun通过自研大模型,实现从2D照片到3D模型的极简转化,用户仅需拍照或上传图片,数十秒即可生成高精度3D模型,支持360°预览、3D打印格式导出及四种风格化图片生成。App深度集成华为图库、近场分享及跨设备3D打印互联,配合Web端专业管线,实现“移动端起草、专业端深化”的无缝衔接,让3D创作人人可用。

  • 硬刚特斯拉!理想放话:四季度马赫VLA智驾能力对齐FSD V14

    在今日举办的Livis Day理想汽车软件与具身智能发布会上,理想汽车宣布下半年马赫VLA能力持续进化,第三季度AD Max将推送全新马赫VLA,第四季度对齐特斯拉FSD V14的能力。 据了解,马赫VLA是理想自研的视觉-语言-行动一体化大模型。目前全新理想L9 Livis已搭载马赫VLA 2.1系统,多模态计算量提升10倍,配备3D ViT感知模型,融合激光雷达与视觉信息,可视距离提升50%。 此次发布会�

  • AI日报:阿里上线首个官方大模型NBA Chat; Ideogram4.0开源发布;OpenAI升级ChatGPT记忆系统

    今日AI领域动态:Ideogram 4.0开源发布,93亿参数打造最强文字生成AI,提升海报与品牌营销创作;OpenAI升级ChatGPT记忆系统,算力降至1/5,解决过时与准确性痛点;腾讯文档推出行业首创“人机双写”原生编辑器;xAI发布Grok Imagine Video 1.5,支持图片转视频;豆包回应AI识别野生蘑菇误判,强调仅供参考;知乎Q1扭亏为盈,AI短剧成增长点;腾讯云ADP 4.0新增Claw模式,提升企业Agent构建效率;NBA中国与阿里推出首个官方大模型“NBA Chat”。

今日大家都在搜的词: