LLM AutoEval:AI平台自动评估Google Colab中的LLM

2024-01-15 11:20 · 稿源：站长之家

划重点:
1. 🔄 自动化设置和执行:LLM AutoEval通过使用RunPod简化设置和执行过程，提供便捷的Colab笔记本，实现无缝部署。
2. 🎚 可定制的评估参数:开发者可以通过选择两个基准套件（nous或openllm）来微调评估，提高LLMs性能。
3. 📊 摘要生成和GitHub Gist上传:LLM AutoEval生成评估结果摘要，快速展示模型性能，并方便地上传至GitHub Gist进行分享和参考。

站长之家（ChinaZ.com）1月15日消息:在自然语言处理领域，语言模型的评估对于开发人员推动语言理解和生成的边界至关重要。LLM AutoEval是一款旨在简化和加速语言模型（LLMs）评估过程的工具，专为寻求快速高效评估LLM性能的开发者定制。

LLM AutoEval具有以下关键特点:

1. **自动化设置和执行:** LLM AutoEval通过使用RunPod简化设置和执行过程，提供方便的Colab笔记本，实现无缝部署。

2. **可定制的评估参数:** 开发者可以通过选择两个基准套件 - nous或openllm，微调他们的评估。这提供了对LLM性能的灵活评估。

3. **摘要生成和GitHub Gist上传:** LLM AutoEval生成评估结果的摘要，快速展示模型的性能。该摘要随后方便地上传至GitHub Gist，以便轻松分享和参考。

LLM AutoEval提供了用户友好的界面，可定制的评估参数，满足开发者在评估语言模型性能时的多样化需求。两个基准套件，nous和openllm，提供了不同的任务列表进行评估。nous套件包括诸如AGIEval、GPT4ALL、TruthfulQA和Bigbench等任务，推荐用于全面评估。

另一方面，openllm套件包含任务，如ARC、HellaSwag、MMLU、Winogrande、GSM8K和TruthfulQA，利用vllm实现增强速度。开发者可以从Hugging Face中选择特定的模型ID，选择首选GPU，指定GPU数量，设置容器磁盘大小，选择在RunPod上使用社区或安全云，并切换对于像Phi这样的模型的信任远程代码标志。此外，开发者还可以激活调试模式，尽管不建议在评估后保持Pod处于活动状态。

为了在LLM AutoEval中实现无缝的令牌集成，用户必须使用Colab的Secrets选项卡，在那里创建两个名为runpod和github的秘密，分别包含RunPod和GitHub所需的令牌。

两个基准套件，nous和openllm，满足不同的评估需求:

1. Nous套件:*开发者可以将其LLM结果与OpenHermes-2.5-Mistral-7B、Nous-Hermes-2-SOLAR-10.7B或Nous-Hermes-2-Yi-34B等模型进行比较。Teknium的LLM-Benchmark-Logs可作为评估比较的有价值参考。

2. Open LLM套件:该套件允许开发者将其模型与列在Open LLM排行榜上的模型进行基准测试，促进社区内更广泛的比较。

在LLM AutoEval中进行故障排除得到了对常见问题的明确指导。例如，“Error: File does not exist”情景提示用户激活调试模式并重新运行评估，便于检查日志以识别和纠正与缺少的JSON文件相关的问题。在“700Killed”错误的情况下，警告用户硬件可能不足，特别是在尝试在像RTX3070这样的GPU上运行Open LLM基准套件时。最后，对于过时的CUDA驱动程序的不幸情况，建议用户启动新的pod以确保LLM AutoEval工具的兼容性和平稳运行。

LM AutoEval是一款为开发者在复杂的LLM评估领域中航行提供帮助的有前途的工具。作为一个为个人使用而设计的不断发展的项目，鼓励开发者谨慎使用，并为其发展做出贡献，确保在自然语言处理社区中持续增长和实用性。

项目网址:https://github.com/mlabonne/llm-autoeval?tab=readme-ov-file

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
Tara：一款可以将LLM接入Comfy UI的插件

一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API，将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中，使得复杂的工作流程得以实现，从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

Tara ComfyUI AI头条
Hugging Face 发布医疗任务评估基准Open Medical-LLM

HuggingFace发布了一项名为OpenMedical-LLM的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。

HuggingFace AI头条
荐Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

【新智元导读】Anthropic发布最新研究，发现Claude3Opus的说服力与人类大致相当，该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示，他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

Claude3
荐开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

GPT-4又又又被超越了!近日，LLM竞技场更新了战报，人们震惊地发现:居然有一个开源模型干掉了GPT-4!这就是Cohere在一周多前才发布的CommandR。排行榜地址:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard截至小编码字的这个时间，竞技场排行榜更新到了4月11号，CommandR拿到了2.3万的投票，综合得分超越了早期版本的GPT-4，和GPT-4-0314版本并列第7位，——它可是一个开源模型。2024年，在开源和闭源两条道路上，LLM都发展迅猛。

Cohere CommandR+ 人工智能
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
Small AI 开放无限制使用GPT全系列、Claude全系列等市面100款AI模型

🌍大模型全链路API聚合品牌:全网最稳定的Enterprise企业级2000Mbps带宽中转，100%全部使用官方企业高速渠道非低价普通或逆向渠道，已触达中国、美国、日本、韩国、英国、新加坡、香港、菲律宾、俄罗斯等8个地区共计7千客户，网站已稳定运行11个月，承诺永久运营!⭐按量计费，无需承担额度过期或者封号风险，MySQL8.2超高并发不限速，超强自研能力，基于渠道RPM和TPM的智能负�

API AI头条
荐国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

【新智元导读】大模型混战究竟谁才是实力选手?清华对国内外14个LLM做了最全面的综合能力测评，其中GPT-4、Cluade3是当之无愧的王牌在国内GLM-4、文心4.0已然闯入了第一梯队。在2023年的「百模大战」中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的;有些是通用的，有些则是行业特定的。●偏见歧视:文心一言4.0继续排名榜首，领先GPT-4系�

GLM-4
免费使用Claude 3！这个平台集成了所有主流的AI聊天机器人！Small AI 2024最新版教程

这是一款我很久之前就想介绍的AI平台，在我之前的一篇AI对话工具排行的文章里出现过它的身影，它是一个交互式AI对话工具，它更是一个LLM大语言模型的搬运工。在这个平台上，有着几乎所有主流的大语言模型，包括GPT系列、Claude3系列和GeminiPro等。跨平台兼容性:SmallAI不仅提供网页版服务推出了iOS和Android的适配版，使得用户可以随时随地跨平台使用。

AI平台交互式对话工具 LLM大语言模型

Learn, Build & Ship SaaS with ShipGPT:构建和交付AI的Next.js模板和教程

SHIPGPT是一个前后端完整的AI模板，提供了各种AI用例的脚手架，使您能够构建自己的AI应用程序或将AI集成到现有技术中，无需雇佣全栈开发人员和AI开发包装器。

AI SaaS 模板

https:创建你的 ComfyUI 工作流程应用，并与他人分享

ComfyFlow 是一个基于 ComfyUI 的工作流程应用创建平台，能够快速创建工作流程应用并与他人分享。它使用稳定扩散（Stable Diffusion）和 ComfyUI 技术构建，具有简单易用、完全托管、免费使用等优点。

ComfyFlow ComfyUI 工作流程应用

AI Experts Top:AI Experts是一家专注于数字营销的AI顾问机构，致力于将人工智能技术应用于业务中，帮助企业提高效率和推动增长。

AI Experts是一家专注于数字营销的AI顾问机构，通过AI驱动的工具，帮助企业高效地生产高质量的内容，并通过数据分析提供有价值的见解，引导业务策略。AI Experts的主要优点包括节省时间和资源、提高内容质量、提供数据驱动的决策支持等。产品背景信息：AI Experts是由真人运营的AI机构，致力于帮助企业将人工智能技术应用于业务中。

AI 数字营销内容生产

Pongo:是一个语义过滤器，使用1行代码可以将RAG工作流中的LLM幻觉减少80%。

Pongo的语义过滤器可以通过一行代码将RAG工作流中的LLM幻觉减少80%。它利用多种先进的语义相似性模型和专有的排名算法，确保您始终获得正确的信息。Pongo可以与现有的流程集成，并提供快速的响应时间和零数据保留。

语义过滤器 RAG工作流语义相似性

Video To Tweet:将YouTube视频转换为推特/博客内容

Video To Tweet是一个将YouTube视频转换为推特和博客内容的工具。它能够将视频转换成有吸引力的推特和详细的博客文章，帮助您轻松提升在线存在感。通过尝试使用我们的工具，优化您的内容策略，扩大触达更广泛的受众。

社交媒体内容创作数字营销

TextToVideo.Bot:将文本转化为令人惊叹的视频。

TextToVideo是一个AI驱动的工具，可以将文本转化为令人惊叹的视频。它可以帮助用户快速创建YouTube、Instagram和TikTok等平台上的内容，无需等待或支付过高的费用。它提供快速、经济实惠的视频制作解决方案，帮助用户讲述故事，提升品牌影响力。

视频创作工具 AI

Email Generator AI Tool:Email Generator AI工具是一款帮助您高效撰写电子邮件的人工智能工具。

Email Generator AI工具可以帮助您快速、高效地生成电子邮件内容，节省您的时间和精力。

生产力工具电子邮件

MentorAI:通过，你可以向马库斯·奥勒留提问和描述生活中的问题和情况，他将提供个人指导和斯多葛哲学的建议作为回应。

MentorAI允许您提问并描述生活中的问题和情况，马库斯·奥勒留将以个人指导和斯多葛哲学的建议作为回应。它提供了与一位哲学家国王的互动体验，帮助您在生活中面对挑战时获得智慧和指导。

智慧指导哲学

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

LLM AutoEval:AI平台自动评估Google Colab中的LLM

今日大家都在搜的词：

热文

站长商机