智源研究院开源JudgeLM 可评测各类大模型并输出评分

2023-11-13 08:28 · 稿源：站长之家

站长之家（ChinaZ.com）11月13日消息:智源研究院开源了一种名为 JudgeLM 的裁判模型，可以高效准确地评判各类大模型。

与 GPT-4相比，JudgeLM 仅需1/120的成本，就能达到90% 以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景，并可以输出评分、判断和阐述理由。

微信截图_20231113082912.png

通过创新方法，JudgeLM 与参考答案的一致性最高超过了90%，接近人类表现。JudgeLM 有三个不同参数版本，分别为70亿、130亿和330亿参数，能力和表现随着参数规模的增大而提升。

此外，智源研究院还开源了一个包含训练和验证样本的数据集，用于深入研究大语言模型裁判。JudgeLM 的评判效率高，成本低于基于 API 的评判方法。

未来，JudgeLM 团队将进一步完善这一裁判模型，提供更准确、高效、覆盖更多场景的大语言模型评判。

JudgeLM 相关资源:

github :https://github.com/baaivision/JudgeLM

arxiv :https://arxiv.org/abs/2310.17631

demo（33B） :https://218.91.113.230:9004/

（举报）

相关推荐

关键词：

百川开源最新医疗大模型，中国力量领跑医疗AI赛道

专注医疗后，百川智能交出第一份答卷! 8月11日，百川智能发布第二款开源医疗增强推理大模型Baichuan-M2，其以32B的参数量，在OpenAI的Healthbench评测集上，超越其刚刚发布5天的开源模型gpt-oss-120b。

百川智能医疗大模型开源模型
荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探
GPT-5正式发布：与Claude 4、Gemini 2.5等主流大模型谁更胜一筹？

2025年8月7日，OpenAI正式发布GPT-5，官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升，在AIME2025测试中取得94.6%的高分，处理速度也有明显改善。但与竞争对手相比仍存在差距：Claude4在代码生成和逻辑推理方面表现优异，支持200K token长文本；Gemini2.5具备2M超大上下文窗口和全模态支持；国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�
荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

本文介绍了AI领域最新动态：1)腾讯开源Hunyuan-GameCraft框架，可快速生成高质量游戏视频；2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext；3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型；4)Kimi将推出PPT生成功能；5)阿里1688将上线"诚信通AI版"会员服务；6)苹果智能家居中心推迟至2026年发布；7)万兴科技接入GPT-5；8)全球AI独角兽达498家，总估值2.7万亿美元；9)谷歌为Slides和

AI 游戏视频生成腾讯混元
腾讯研究院“破茧”报告三部曲，绘数字信息生态新蓝图

腾讯研究院联合多家机构发布《破茧》三部曲报告，针对当前互联网信息生态中的"信息茧房"现象，创新性提出"信息蜂房"概念。报告指出算法推荐导致用户陷入单一重复的信息循环，助长群体认知偏见。为解决这一问题，"信息蜂房"倡导构建开放多元的信息生态，强调用户主动探索和算法协同，促进不同观点交流碰撞。同时关注AI技术带来的虚假信息挑战，提出"概率真相"概念，呼吁提升公众信息辨别能力。报告为构建健康数字信息生态提供了前瞻性框架和实践路径。

信息茧房信息蜂房用户主动探索
贸促会研究院：中国游戏产业全球化已经进入“本土化”阶段初期

7月29日，由中国音像与数字出版协会指导，中国音数协游戏工委、上海市嘉定区江桥镇人民政府主办的2025游戏商务大会“游戏产业出海发展论坛”在上海召开。会上，中国贸促会研究院国际投资研究部副主任李媛发布了《中国游戏产业全球化研究》报告。《报告》指出，历经20余年发展，中国游戏产业全球化已经进入本土化阶段初期，以腾讯游戏为代表的中国游戏�

游戏产业全球化海外市场
GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

OpenAI正式发布GPT-5，与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出；Claude4Opus编程优异(72.5%)但数学较弱(33.9%)；Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面，GPT-5和Gemini2.5Pro定价相近($1.25-$10)，Claude4Opus较高($15-$75)。建议根据需求选择：GPT-5适合综合应用，Claude4Opus适合专业编程，Gemini2.5Pro适合长文档�

GPT-5发布大语言模型性能对比
大模型对比评测：Qwen2.5 VS Gemini 2.0谁更能打？

本文对比分析了四款AI大模型：Gemini2.0Flash-Lite（Preview）、Gemini2.0Flash（Experimental）、Gemini2.0Pro Experimental（Feb25）和Qwen2.5Coder Instruct32B。Gemini2.0Flash-Lite适合高并发低延迟应用，Gemini2.0Flash擅长实时多模态推理，Gemini2.0Pro适合复杂编程任务，Qwen2.5Coder在代码任务上性价比突出。建议使用AIbase模型广场进行高效筛选，该平台覆盖上万款AI模型，提供性能、价格等多维度直观对比，支持按任务类型、语言等精准筛选，并持续更新最新模型。

AI大模型选型 AI应用落地模型性能对比
AI大模型对比完全指南:如何选择最适合你的大模型?

文章探讨了当前AI大模型市场众多选择带来的选择困难问题。面对GPT-4、Claude、文心一言等各具特色的模型，普通用户和企业难以科学评估和选择。文章提出了一套完整的评估体系，包括基础能力、技术性能、应用场景和商业考量四个维度，并建议采用标准化测试和实际场景验证相结合的方法。同时介绍了2025年主流AI模型的特点：GPT-4o在多模态交互领先，Claude3在编程和逻辑分析突出，Gemini2.5擅长长文本处理，国产DeepSeek则以高性价比见长。最后强调选择AI模型应基于具体需求，而非简单追求性能排名，建议通过专业对比平台和实际测试来验证。

AI大模型对比模型选择方法论市场分析
荐AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

【AI日报】汇总了最新AI领域动态：1)腾讯开源混元系列小尺寸模型，适用于消费级显卡；2)昆仑万维发布推理大模型MindLink，提升回答透明度；3)B站推出AI原声翻译功能，保留UP主音色；4)谷歌Gemini 2.5在数学奥赛夺金，展现强大推理能力；5)OpenAI展示GPT-5网络信息整合特性；6)苹果组建AI团队挑战ChatGPT；7)高德地图推出全球首个AI原生地图应用；8)Adobe推出AI图像合成工具Harmonize；9)NVIDIA发布革命性视频渲染技术；10)谷歌推出Android Studio免费AI编程助手；11)开源结构化信息提取工具LangExtract；12)Figma开发者模式升级提升设计转代码效率。

人工智能开源模型腾讯混元

今日大家都在搜的词：

热文

3 天
7天

智源研究院开源JudgeLM 可评测各类大模型并输出评分

百川开源最新医疗大模型，中国力量领跑医疗AI赛道

荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

GPT-5正式发布：与Claude 4、Gemini 2.5等主流大模型谁更胜一筹？

荐AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-banana发布；字节开源Agent专用模型 M3-Agent-Control

腾讯研究院“破茧”报告三部曲，绘数字信息生态新蓝图

贸促会研究院：中国游戏产业全球化已经进入“本土化”阶段初期

GPT-5和Claude 4 Opus谁更强？用这个AI大模型对比工具一眼明了

大模型对比评测：Qwen2.5 VS Gemini 2.0谁更能打？

AI大模型对比完全指南:如何选择最适合你的大模型?

荐AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

今日大家都在搜的词：

热文

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

华为MatePad 11.5 S官宣8月15日发布

阿里小号宣布暂缓停服：可继续正常使用

华为MatePad Air新款官宣8月15日发布

AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-V

婚礼时间有变！李国庆透露有新版实名制请柬：从未对外出售门票

华为平板电脑教育优惠上线：至高便宜200元

曝iPhone18系列搭载全新A20芯片 iPhone 18 Fold明年发布

荣耀Magic V Flip2 定档 8 月 21 日外观配置亮点抢先看

iPhone17Pro最新外观曝光：苹果调整天线布局

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线A

AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

REDMI Note 15 Pro系列官宣本月发布

京东养车50亿补贴更名震骨价号称补贴不「唬」

雷军发起小米YU7版本更名投票称小米YU7标准版绝非丐版

REDMI Turbo 5已备案：首发天玑8500处理器

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

周鸿祎与机器人PK球技：带球突破被机器人抢断

站长商机