首页 > 业界 > 关键词  > 正文

昆仑万维:天工大模型推理能力超过GPT-3.5和LLaMA2

2023-09-18 08:18 · 稿源:站长之家

站长之家(ChinaZ.com)9月18日 消息:昆仑万维表示,其自研的天工大模型在 Benchmark GSM8K 测试中取得了80% 的正确率,超过了 GPT-3.5和 LLaMA2-70B,达到了全球领先水平,接近于 GPT-4。

天工大模型还在 MMLU、C-EVAL、HumanEval 等多个数据集上表现出色,准确率均高于其他主流大模型。同样,在中文开源数据集 CMATH 测试中,天工大模型也表现优秀,准确率超过了其他主流大模型。

微信截图_20230918081839.png

昆仑万维表示,天工大模型的优秀表现得益于其对多数据源的高效融合策略、不同语言间的能力迁移以及对基座逻辑推理能力的深入探索。与 GPT-3.5相比,天工大模型的解题思路更为简单、清晰。

天工大模型目前仍处于内测阶段,将持续提升技术实力,为用户和企业提供强大的智能化助力。

举报

  • 相关推荐
  • AI日报:MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork-SWE-32B;B站接入Qwen 3等模型

    本期AI日报聚焦多项AI领域创新:1)MiniMax推出视频Agent工具,支持文本生成高清视频及人脸驱动;2)昆仑万维开源Skywork-SWE-32B模型,提升软件工程任务表现;3)B站接入通义千问模型,推出数据分析智能体InsightAgent;4)ChatGPT深度整合Gmail与日历功能;5)腾讯云发布全链路AI开发平台"AI Builder";6)HeyGen推出UGC广告数字人功能;7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态,展现AI技术快速发展的多元应用与潜在影响。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 模型推理协作正式开启,魔乐社区让模型跑遍“中国芯”

    魔乐社区启动"模型推理适配协作计划",旨在解决国产算力平台与大模型间的适配难题。该计划通过开源协作模式,联合开发者、芯片厂商等生态伙伴,构建从工具链到知识库的全栈支持体系,打造适配成果共享平台。重点支持开源大模型在国产硬件及多样化推理引擎上的高效运行,提供模型转换工具和优化指南,降低开发门槛。目前已有文心大模型4.5等首批适配成果�

  • Lamett乐迈石晶发布2025新品,中国全屋整装迎来“石晶时代”

    乐迈石晶在第27届中国建博会(广州)推出"全屋石晶整装解决方案",以"要健康·要安全·要石晶"为主题,通过零醛添加、防水防潮、防蛀防霉等八大性能优势重新定义整装标准。该方案采用天然石灰岩和树脂晶体为原料,通过高温高压工艺实现零甲醛释放,适用于全屋空间。乐迈石晶已建立全球研发中心,拥有多项核心专利技术,业务覆盖80多个国家和地区。此次创新不仅推动建材升级,更引领健康人居新趋势,为消费者打造安全舒适的家居环境。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • VLA模型打响升维战:理想、元戎启行如何重塑“安心感”

    当前辅助驾驶已实现全国覆盖,但用户从"能用"到"爱用"仍有明显鸿沟。核心痛点在于"安心感不足"——系统决策缺乏解释性、盲区预判能力薄弱、人机交互机械化等问题。理想汽车押注的VLA(视觉-语言-动作)模型通过语言模型增强系统推理能力,能更全面理解交通场景。该模型具备三大功能:空间语义理解可预判盲区风险;异形障碍物识别能应对极端路况;文字类引导牌理解可精准执行车道选择。VLA技术有望解决智驾系统"最后一公里"的信任难题,推动行业从功能覆盖转向体验升级。

  • 女生兼职给LABUBU钩衣服月入超2万 月销量超过300单

    近日,一位在社交平台开设钩织娃衣店的店主糖糖引起了广泛关注。她通过为泡泡玛特原创潮玩LABUBU手工钩织衣服,实现了月收入超过两万元的佳绩,其中近一半订单来自海外。 ​她近几个月都在专注于为LABUBU手工钩织衣服。这些手工钩织的娃衣每件定价在70元上下,凭借精湛的手艺和独特的设计,受到了众多消费者的喜爱。月销量超过300单,这一数字不仅证明了LABUBU的受欢�

  • 海洋公园月薪3万招摸鱼官:每天工作2小时

    据媒体报道,郑州一家海洋公园发布月薪3万招募首席摸鱼官”的消息引发全网关注。 这家海洋公园通过公众号发布了招聘信息,首席摸鱼官”报名时间为6月18日至25日,要求颜值高、性格好,最重要是海豚喜欢,主要职责就是搭档点斑原海豚和游客互动,每天工作两个小时,月薪高达3万元。 此次招募活动面向全国,园方将从简历中筛选出10人带薪试岗,有网友表示:这才是�