首页 > AI头条  > 正文

智谱GLM-4-9B模型幻觉率仅1.3%,在全球大模型评测中夺魁

2025-01-10 15:49 · 来源: AIbase基地

在人工智能领域,大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。

测试数据显示,在参与评估的85个大语言模型中,GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是,该模型的幻觉率仅为1.3%,这一成绩不仅位居榜首,更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。

机器人 元宇宙 科幻

图源备注:图片由AI生成,图片授权服务商Midjourney

这一突破性成果标志着中国大语言模型在降低"幻觉率"方面取得重要进展,为提升AI应用的可靠性和准确性带来新的可能。这不仅体现了智谱AI在模型研发上的技术实力,也为全球AI领域树立了新的标杆。

在当前AI技术竞争日益激烈的背景下,GLM-4-9B模型的出色表现无疑将为智谱AI赢得更多关注,同时也为中国AI企业在国际舞台上赢得了更多话语权。

  • 相关推荐
  • 智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

    12月28日,智象未来科技有限公司在安徽人工智能产业先导区启动仪式中,正式发布智象多模态生成大模型3.0版。启动仪式上,智象未来创始人兼首席执行官梅涛总结了2024年人工领域技术发展的五个标志性事件,分别是以Sora为代表的视觉生成物理世界模拟器、以ChatGPT4o为代表的多模态模型、以GPT-o1为代表的从预训练到后训练推理优化、多模态大模型赋能具身智能实现软硬件结合,以及人工智能学者荣获诺贝尔化学奖表明AI赋能科研范式变革。本次活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,共同打造集技术研发、产业化应用、市场推广于一体的生态体系。

  • 大模型,在内卷寻找出口

    2024年,大模型进展不断。从年初的Sora到最新的o3,更新更好的模型不断被推出,“内卷”到底有没有发生?我们要先确定“内卷”的定义,指某一类产业模式,发展到一种确定形式后,陷入“高水平均衡陷阱”,出现“没有发展的增长”,这种局面一直无法被打破,那就会走向停滞和危机。大模型要取得商业成功,前提是用户和开发者的业务能否成功,这是为什么完善的商业基

  • 业内首个!京东发布“AI京医”大模型:准确99.5%

    快科技1月11日消息,2025京东健康年度医生盛典和数智医疗大会今天在京举行,京东健康发布了基于其线上全域场景的大模型全系产品AI京医”。AI京医”大模型包括一系列产品,包括AI诊疗助手2.0,AI科研助手、AI医生智能体等。2024年初,京东健康发布AI诊疗助手1.0版本,迅速成为医生群体使用率最高的智能辅诊平台。此次全新升级版的AI诊疗助手2.0,融合前沿AI技术及大数据分析技术,为医生提供更加精准、全面的诊疗建议和支持,降低医疗风险和误诊率。官方介绍称,目前,AI诊疗助手2.0”的分诊准确率达到99.5%,电子病历书写效率提升120%,AI

  • 大模型不再有信仰

    AI大模型的“AGI信仰”可能正处在崩溃边缘,与曾经的“区块链信仰”殊途同归。只是当初那一大批“区块链信仰者”,虽然绝大多数是韭菜,但也有一小批“塔尖”人士赚的盆满钵满;如今的AI大模型初创公司,抛开“AGI信仰”,恐怕连能活多久都不知道。2025年各大模型公司应该会更加务实是那句话,只有活得下去才有实现目标的可能,“信仰”不再重要。

  • 天娱数科大模型备案“再落一子”,数字化、智能化、全球化 “棋局” 同进

    国家网信办发布最新一批生成式人工智能服务备案公告,天娱数科自研基座大模型“天星”已于2024年12月20日成功通过辽宁省第一批大模型备案。天娱数科已有基座大模型天星大模型以及面向3D智能领域的行业大模型“智者千问”两款大模型通过备案。凭借深厚的技术积累与创新能力,为不同行业客户的数字化转型与智能化升级注入强大动力。

  • 我们正在大模型产品面前“裸奔”么

    全球有数亿人在向AI产品倾诉他们的想法、困惑、创意,甚至秘密。但鲜有人意识到,这些对话正在以“帮助训练下一代AI模型的”的名义,突破着过往移动互联网产品的数据使用界限。看起来现在是时候有更多更直接和更严肃的讨论了。

  • 材料设计重大突破!微软发布创新大模型,准确提升10倍!

    微软发布了专用于无机材料设计的创新大模型——MatterGen。MatterGen的基础架构是基于扩散模型,能逐步优化原子类型、坐标及周期晶格,从快速生成不同类型的新型无机材料。可以比肩谷歌在去年获得诺贝尔化学奖的蛋白质预测模型AlphaFold系列。

  • AI大模型时代下的天融信:安领域的智能先锋

    2024年,AI大模型的发展迎来了前所未有的突破和变革。全球范围内,AI大模型因其强大的数据处理能力和卓越的性能表现,被视为推动产业升级和经济转型的重要引擎。随着AI大模型的不断发展和应用场景的不断拓展,天融信将继续秉持“科技引领、创新驱动”的发展理念,为客户提供更加优质、智能的网络安全服务,为中国的网络安全事业贡献自己的力量。

  • 讯飞星火大模型升级发布会:语音同传大模型开启AI翻译新纪元

    讯飞星火大模型升级发布会:语音同传大模型开启AI翻译新纪元 1 月 15 日,讯飞星火大模型升级发布会拉开帷幕。作为人工智能国家队,科大讯飞重磅发布了星火语音同传大模型等一系列重大技术成果,不仅彰显了讯飞在人工智能语音领域深厚的技术积淀,也预示着AI翻译技术正迈向全新的纪元。星火语音同传大模型通过先进的端到端语音同传技术,其优势为翻译字幕呈现更快

  • 字节跳动与科大讯飞:大模型之战的AB

    走过近两年的竞速赛后,中国大模型赛道正加速迎来分化。分化首先体现在大模型初创公司的路径选择上。(本文头图来源于字节跳动官网、科大讯飞官方微博。

今日大家都在搜的词: