首页 > 业界 > 关键词  > Upstage最新资讯  > 正文

韩国AI公司Upstage的LLM击败ChatGPT 评分居首

2023-08-01 17:48 · 稿源:站长之家

站长之家(ChinaZ.com)8月1日 消息:日前,韩国人工智能创业公司 Upstage最新人工智能模型Upstage在一项全球认可的开源语言模型评估中超过了全球知名的 AI 巨头 OpenAI 的 ChatGPT。

Upstage 的其采用 Meta 的 LLaMA270B 模型训练的新 AI 模型在最新的 HuggingFace Open LLM Leaderboard 排行榜上获得了平均得分72.3,该排行榜是一个公认的开源 LLM 评估标准,有超过500个 LLM 参与竞争。

image.png

这是非主流 AI 模型首次在排行榜上超过搭载 GPT-3.5的 ChatGPT,证明了这家韩国公司在全球 AI 领域的技术能力。ChatGPT 的基准分数为71.9。

上个月,Upstage 的30亿参数的 LLM 模型在发布当天就以平均得分64.7超越了 Meta 的 LLaMA270B 模型后,最新 LLM 无疑在最新排行榜上超过了自家之前的70B LLM,以71.4分拿下冠军位置。这家韩国初创公司表示,Upstage 最新的 LLM 采用最新的 LLaMA2模型,参数更大,达到700亿。

为了进军 AI安全 市场,Upstage 计划利用自己的技术卓越性,私有人工智能是一种具有强大数据保护和安全系统的商业 AI 解决方案,它专门针对公司的私人内部数据集进行训练。Upstage 的首席执行官Seong-hoon 在新闻稿中表示:“Upstage 将努力提升其在国内外隐私 AI 市场的领导地位,以其卓越的技术专长。” 这家韩国初创公司在证明了即使是更小的 AI 模型也能在成本更低的情况下与全球巨头竞争之后,对其 AI 解决方案抱有很大的期望。

Upstage 将最新的成就归功于一支优秀的 AI 专家团队,他们开发了韩语理解(NLU)数据集 KLUE 和该公司的旗舰聊天机器人 AskUp。AskUp 是首个由 OpenAI 的 GPT-4提供支持的韩语聊天机器人服务,现在约有130万人使用。团队只用了两个月的时间开发了与 LLaMA2模型微调的最新 LLM。

Upstage 成立于2020年,由Seong-hoon勋领导,他是香港科技大学的前教授,也是世界上最优秀的 AI 专家之一,能够将软件工程和机器学习融为一体。他还带领开发了 Naver Clova AI。据该公司透露,还有来自美国大型科技公司 Meta、Nvidia 和 Amazon 的其他 AI 工程师也加入了公司。

举报

  • 相关推荐
  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

  • 从“实时分账”到“智能问数”:汇付天下以“Data Agent”重塑支付业务决策效率

    汇付天下作为技术驱动的数字化企业,践行“数字化+国际化”战略,为全球企业提供支付、账户、资金管理及数据集成解决方案。面对海量交易数据处理需求,公司依托火山引擎技术,构建湖仓一体架构,实现毫秒级风控响应与实时分账,并通过Data Agent智能平台支持自然语言查询与业务归因,推动数据驱动运营。该方案以流批一体能力优化数据处理效率,保障业务稳定与合规,助力企业实现全域增长与智能化风控协同。

  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

  • 品牌在AI时代“隐形”?用GEO指数破解AI搜索曝光密码

    文章探讨AI搜索时代品牌曝光新指标GEO指数,指出其通过可见度(品牌在AI回答中的出现概率)和曝光度(被提及总次数)衡量品牌在豆包、文心一言等主流AI模型中的存在感。以徕芬为例,其GEO得分仅33分,反映在AI搜索中存在感薄弱。随着超60%消费者决策参考AI推荐,GEO指数直接影响品牌流量获取。文章建议通过AIBase工具分三步优化:绑定品牌信息锚定监控范围、分析关键词关联度与竞品表现、针对性补充官网内容强化核心词布局,将AI搜索流量转化为品牌增长新引擎。

  • 鲁大师10月新机性能/流畅/AI榜:骁龙8 Elite Gen5与天玑9500新机大混战

    10月手机圈迎来新机潮,19款新机扎堆发布。骁龙8 Elite Gen5和天玑9500新旗舰芯片成为性能核心,红魔11Pro+凭借满血硬件和主动水冷散热以198万+分数登顶性能榜。流畅度方面,iQOO Neo11凭借OriginOS6系统优化逆袭夺冠,OPPO、vivo多款机型占据前列。AI榜单因新芯片跑分波动暂未收录,但骁龙8 Elite Gen5的NPU性能提升显著。总体呈现“旗舰芯片定基调,系统优化决胜负”的竞争格局。

  • Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

    2025年11月11日,舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计,提供一站式高品质音频服务,集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证,无缝接入MTR生态系统,支持端到端加密通信,确保会议安全。用户可远程管理系统,降低运维成本。舒尔与微软合作,共同提升企业协作效率,首批体验用户反馈语音清晰流畅,显著优化沟通质量。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

  • 苹果发布iOS 26.2 beta 2:动效更流畅、继续适配液态玻璃

    苹果今天凌晨发布了iOS 26.2 beta 2,依然在适配更多的液态玻璃效果,并且还优化了动画效果,更流畅丝滑了。 以下是本次主要更新内容: 游戏库新增排序与筛选功能,支持手柄导航,且在播放过程中可实时更新分数。 新版还强化了社交互动功能,用户可以直接从游戏”应用中邀请朋友进行挑战或实时多人游戏,当朋友打破你的高分纪录时,系统还会发送通知,方便你立即�

今日大家都在搜的词: