谷歌放大招！LMEval开源评测框架上线，AI模型比拼从此更透明

2025-05-29 11:07 · 来源： AIbase基地

近日，谷歌正式发布了开源框架 LMEval，旨在为大语言模型（LLM）和多模态模型提供标准化的评测工具。这一框架的推出，不仅简化了跨平台模型性能比较，还支持文本、图像和代码等多领域的评估，展现了谷歌在AI评测领域的最新突破。AIbase为您整理了LMEval的最新动态及其对AI行业的影响。

标准化评测:跨平台模型比较更简单

LMEval的推出标志着AI模型评测进入了一个新阶段。该框架基于LiteLLM开发，能够兼容谷歌、OpenAI、Anthropic、Hugging Face和Ollama等多个主流AI平台，无需修改代码即可实现跨平台的统一测试。这一特性极大降低了开发者的评测成本，使得不同模型（如GPT-4o、Claude3.7Sonnet、Gemini2.0Flash和Llama-3.1-405B）的性能比较更加高效和一致。

元宇宙科幻赛博朋克绘画 (1)大模型

图源备注：图片由AI生成，图片授权服务商Midjourney

LMEval不仅提供了标准化的评测流程，还支持多线程和增量评估功能。开发者无需重新运行整个测试集，只需评估新增内容即可，大幅节省计算时间和资源。这种高效的设计为企业和研究机构提供了更灵活的评测方案。

多模态支持:覆盖文本、图像和代码

LMEval的另一个亮点是其强大的多模态评测能力。除了传统的文本处理任务外，该框架还支持图像和代码的评估，能够全面检验模型在不同场景下的表现。例如，在图像描述、视觉问答以及代码生成等任务中，LMEval都能提供精准的评测结果。此外，LMEval内置的LMEvalboard可视化工具，为开发者提供了直观的模型性能分析界面，支持深入的比较和数据钻取。

值得一提的是，LMEval还能识别模型的“规避策略”，即模型在回答敏感问题时可能采取的模糊或回避行为。这一功能对于确保模型的安全性和可靠性至关重要，尤其在涉及隐私保护或合规性审查的场景中。

开源与易用性:助力开发者快速上手

作为一款开源框架，LMEval通过GitHub提供示例笔记本，开发者只需几行代码即可对不同模型版本（如Gemini）进行评测。无论是学术研究还是商业应用，LMEval的易用性都大幅降低了技术门槛。谷歌表示，LMEval的免费开源模式旨在让更多开发者能够评估和测试模型性能，加速AI技术的普及和创新。

此外，LMEval的发布还得到了行业内的高度关注。有消息称，该框架已在2025年4月的InCyber Forum Europe上首次亮相，并迅速引发了广泛讨论。业界认为，LMEval的标准化评测方法有望成为AI模型比较的新标杆。

行业影响:推动AI评测规范化与透明化

LMEval的推出不仅为开发者提供了强大的评测工具，也对AI行业的规范化发展产生了深远影响。在当前AI模型竞争日益激烈的背景下，缺乏统一评测标准一直是行业痛点。LMEval通过提供跨平台、跨模态的评测框架，填补了这一空白，有助于提升模型性能评估的透明度和可比性。

与此同时，LMEval的开源属性进一步推动了AI技术的民主化。无论是初创公司还是大型企业，都可以通过这一框架快速验证模型性能，优化开发流程。这对于推动AI技术在教育、医疗、金融等领域的广泛应用具有重要意义。

结语:LMEval引领AI评测新未来

谷歌LMEval的发布，为大语言模型和多模态模型的评测提供了全新的解决方案。其标准化、跨平台、多模态的特性，以及对规避策略的检测能力，使其在AI评测领域占据了重要地位。

相关推荐

苹果放大招！首款折叠屏iPhone明年发布屏幕、铰链两大关键优势

据爆料，苹果折叠屏iPhone预计2026年发布，将具备两大优势：一是展开时折痕几乎不可见，采用7.8-8英寸无缝内屏设计；二是配备更高质量的钛合金铰链。配置方面，内屏7.8英寸+外屏5.5英寸，后置双摄+前置单摄，采用Touch ID而非Face ID，内置高密度电池。分析师预计该机展开厚度4.5毫米，折叠状态在9-9.5毫米之间。苹果希望通过减少折痕在折叠屏手机竞争中脱颖而出。

苹果折叠屏iPhone 2026年发布
京东Apple产品又又又放大招了限时抢1200元以旧换新补贴券

京东618大促将于5月30日晚8点正式开启，提前引爆苹果产品优惠活动。重点包括：1）5月28日晚8点开启"超级补贴日"，Apple旗舰店每晚8点限时领1200元以旧换新券，叠加国家补贴立减500元；2）iPhone 16系列最高优惠3700元，128G版到手价4299元；3）iPad、Mac等产品享9折+国家补贴，如iPad Air11英寸M3版PLUS会员到手价3369元；4）Apple Watch、AirPods等配件同步降价，AirPods 4四地用户享15%政府补贴后955元。活动期间每晚8点搜索"苹果惊喜券"可抢1200元补贴券，优惠力度空前。

京东618 苹果产品优惠超级补贴日
荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

本文介绍了AI领域最新动态：1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用；2)研究显示ChatGPT能提升K12学生成绩近87%；3)谷歌视频生成工具Veo3扩展至更多地区；4)谷歌发布三款Gemma模型变体，覆盖医疗、手语翻译和海豚语言研究；5)VideoTutor实现一句话生成定制教学视频；6)字节跳动开源多模态模型BAGEL；7)Rork支持无代码开发iOS/Android应用；8)AingDesk降低AI助手开发门槛；9)Claude4登陆亚马逊Bedrock平台；10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

人工智能移动办公 AI应用
荐谷歌突发大招刷爆AI编程榜，网友：不用买Cursor了

Gemini 2.5 Pro提前发布，成为史上最强编码模型。该模型在LMArena所有榜单超越Claude排名第一，包括文本、视觉和Web开发领域。用户仅需手绘草图即可构建"绘图变音频"网页应用，还能通过简单提示完成游戏开发、对象模拟等任务。其编码能力显著提升，支持前端开发、UI设计及复杂代理工作流创建，在WebDev Arena榜单得分提升147分。新功能包括视频转代码、风格复制（如Window

Gemini2.5 编码模型 I/O版
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
荐AI日报：谷歌推最强AI全家桶Google AI Ultra；腾讯混元宣布模型矩阵全面升级；豆包·语音播客模型发布

本文汇总了近期AI领域的重要动态：1)谷歌推出249.99美元/月的AI Ultra订阅计划，提供最强AI模型和高级功能；2)腾讯混元模型升级，新增视觉推理T1-Vision和语音对话模型；3)美图获阿里2.5亿美元投资，将在电商和AI领域合作；4)豆包推出语音播客模型，实现文本快速转音频；5)百度文心X1 Turbo获信通院最高评级；6)谷歌发布Flow AI剪辑工具，集成Veo3等三大模型；7)谷歌Veo3支持4K视频生成；8)Imagen4图像模型发布；9)Gemini2.5 Pro新增并行推理功能；10)谷歌推出虚拟试衣工具；11)公测AI编程助手Jules；12)苹果计划在iOS19开放AI模型；13)京东云推五大免费AI营销工具；14)字节开源多模态模型BAGEL；15)英伟达发布物理推理模型Cosmos-Reason1。

人工智能 AI产品技术趋势
荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

【AI日报】今日AI领域重要动态：1)阿里云推出通义灵码AI IDE，集成千问3模型，显著提升编程效率；2)小米开源多模态大模型MiMo-VL-7B，性能超越更大规模闭源模型；3)黑森林实验室发布FLUX.1Kontext图像生成模型，支持文本和参考图像多次编辑；4)Midjourney V7渲染速度提升40%，新增用户投票功能；5)DeepSeek R1-0528大模型在AGI领域取得突破，性能超越xAI等公司；6)Hugging Face进军机器人市场，推出开源人形机器人HopeJR；7)字节跳动火山方舟接入DeepSeek最新大模型；8)Anthropic开源"电路追踪"工具，揭示大模型决策过程；9)阿里巴巴开源自主搜索AI智能体WebAgent；10)Hume发布低延迟语音语言模型EVI3；11)Manus Slides支持一键生成专业幻灯片；12)Runway Gen-4 References支持手机照片艺术化处理。

人工智能 AI开发工具编程效率
上线仅7天！阿里通义千问3强势登顶全球开源模型宝座

据了解，千问3是国内首个混合推理模型”，快思考”与慢思考”集成进同一个模型，对简单需求可低算力秒回”答案，对复杂问题可多步骤深度思考”，大大节省算力消耗。

通义千问开源模型大模型测评
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

【AI日报】汇总了近期AI领域重要动态：1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首，在指令遵循和推理能力上超越闭源模型；2)月之暗面推出Kimi长思考模型API，可解决复杂代码和数学问题；3)OpenAI发布GPT-4.1模型，性能提升显著；4)Google推出Gemini2.5Pro模型，提升开发者编码能力；5)联想发布"天禧超级智能体"，具备多模态感知能力；6)腾讯元宝上线"对话分

AI日报通义千问3 开源模型

今日大家都在搜的词：

热文

3 天
7天

谷歌放大招！LMEval开源评测框架上线，AI模型比拼从此更透明

苹果放大招！首款折叠屏iPhone明年发布屏幕、铰链两大关键优势

京东Apple产品又又又放大招了限时抢1200元以旧换新补贴券

荐AI日报：昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

荐谷歌突发大招刷爆AI编程榜，网友：不用买Cursor了

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

荐AI日报：谷歌推最强AI全家桶Google AI Ultra；腾讯混元宣布模型矩阵全面升级；豆包·语音播客模型发布

荐AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

上线仅7天！阿里通义千问3强势登顶全球开源模型宝座

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

荐AI日报：阿里通义千问Qwen3问鼎全球开源模型；Kimi长思考模型API发布；OpenAI发布新一代GPT-4.1模型

今日大家都在搜的词：

热文

DeepSeek更新R1推理AI模型，已发布Hugging Face

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

苹果的下一步计划：利用开发者社区，打造AI应用！

OpenAI成立韩国法人，并计划在首尔设立办公室

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

DeepSeek更新R1推理AI模型，已发布Hugging Face

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

特朗普威胁苹果：不在美国生产iPhone，就征收25%关税

特朗普对苹果的施压，可能会导致三星手机在美大幅涨价

传闻中，苹果全新的 HomePad 有望“今年年底前发布”

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

站长商机