基准电压

HuggingFace发布了一项名为OpenMedical-LLM的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“基准电压”的相关热搜词：

相关“基准电压” 的资讯176篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Hugging Face 发布医疗任务评估基准Open Medical-LLM

HuggingFace发布了一项名为OpenMedical-LLM的新基准测试，旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况，以及这些结果可能随时间变化的趋势，都是异常困难的。

HuggingFace AI头条
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
Check Point 在零信任平台基准测试中拔得头筹

CheckPointInfinity平台被评为领先的零信任安全解决方案，可提供卓越的用户体验和可靠的安全性。2024年3月，领先的云端AI网络安全平台提供商CheckPoint®软件技术有限公司近日宣布，其CheckPointInfinity平台在最新的Miercom零信任平台评估中排名第一。Miercom提供包括竞争性产品分析和产品评估在内的专有测试服务，拥有全面的认证和测试方案。

Check Point Infinity
MathVerse：全方位可视化数学基准，对多模态大型语言模型进行公平和深入的评估

多模态大型语言模型在视觉情境下的表现异常出色，引起了广泛关注。它们解决视觉数学问题的能力仍需全面评估和理解。这表明需要更先进的数学专用视觉编码器，突显了MLLM发展的潜在未来方向。

MathVerse AI头条
苹果研究人员提出MAD-Bench基准，克服多模态大语言模型中幻觉和误导性提示

在人工智能领域，多模式大语言模型在推动进步方面发挥了巨大作用，但它们面临处理误导性信息的挑战，可能导致不正确或产生幻觉的响应。这种脆弱性引发了对MLLM在需要准确解释文本和视觉数据的应用中可靠性的担忧。作为一个不断发展的领域，解决这些挑战对于在现实应用中部署MLLMs至关重要。

多模态大语言模型 AI头条
Check Point在Miercom 2024年下一代防火墙基准测试报告中大获全胜

CheckPoint实现了99.8%的新型恶意软件拦截率、100%的网络钓鱼防御率和0.13%的业内领先的超低误报检测率2024年2月—领先的云端AI网络安全平台提供商CheckPoint软件技术有限公司今天宣布，其CheckPointInfinity平台在Miercom的2024年下一代防火墙安全基准测试报告中表现优异，01日恶意软件拦截率和网络钓鱼防御率分别高达99.8%和100%。其他四家安全厂商的平均新型恶意软件拦截率仅为69.2%。Mie
RNN模型挑战Transformer统治地位 Eagle 7B模型登顶多语言基准测试

随着大模型的崛起，RNN模型Eagle7B挑战了Transformer的霸主地位。该模型在多语言基准测试中表现卓越，同时推理成本降低数十倍。通过不断探索和创新，人工智能技术将更好地为人类社会和个体提供服务。

大模型
Nomic AI 发布首个完全开源的长文本嵌入模型，超越 OpenAI Ada-002在各项基准测试中的表现

在自然语言处理领域不断发展的背景下，理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力，特别是通过文本嵌入的发展。它打破了在长文本嵌入领域的准入壁垒，承诺一个未来，其中对话的深度与人类讨论的广度相匹配。

Nomic AI头条
华科大发布多模态大模型新基准覆盖五大任务

华中科技大学等机构发布了一项关于多模态大模型的全面评估新基准，旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型，包括谷歌Gemini、OpenAIGPT-4V等，覆盖了五大任务、27个数据集。这项研究不仅为多模态大模型的性能评估提供了新的思路，也为相关领域的研究和应用奠定了更加扎实的基础。

MultimodalOCR 多模态大模型
智源发布多模态模型中文评测基准CMMU

智源研究院发布了中文多模态模型评测基准CMMU，旨在为中文多模态模型领域提供一个全面、中立的评测基准。该评测基准目前发布了CMMUv0.1版本，其中包含了3603道题目，涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。智源研究院将持续邀请教师改编或新编学科考题，扩充CMMU评测集，以保证评测结果客观、公正，并探索基于判别模型的评测方式，以适应多模态模型的发展需要。
首个图像序列基准测试Mementos开源 GPT-4V/Gemini竟看不懂漫画！

马里兰大学与北卡教堂山合作发布了Mementos，这是专为多模态大语言模型设计的图像序列基准测试，旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。测试结果令人震惊，GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这对于推动MLLM在图像领域的发展提出了挑战，并强调了进一步研究和优化的迫切性。

Mementos
CodeFuse发布面向ToolLearning领域中文评测基准ToolLearning-Eval

蚂蚁集团旗下CodeFuse发布了首个面向ToolLearning领域的中文评测基准ToolLearning-Eval，旨在帮助开发者跟踪和了解各个ToolLearning领域大模型的优势与不足。该评测基准按照FunctionCall流程划分为工具选择、工具调用和工具执行结果总结三个过程，并提供了相应的数据集供通用模型进行评测分析。ToolLearning-Eval项目将不断优化评测数据集、拓展多工具多轮对话数据集，增加评测模型，并�
360智脑多个维度表现优异，荣获“大模型基准评测专业委员会”四个奖项

12 月 28 日，“大模型·大未来” 2023 人工智能大模型基准测试科创发展大会暨中西部数字经济峰会（下称“大会”）在成都举行。经过前期多轮系统评测，“ 360 智脑”在通用大模型类目的“语言知识、学科知识、数学推理、安全可靠”四个维度表现优异，荣获了“大模型基准评测专业委员会”颁发的四个奖项。据悉，此次大会旨在深入了解当前国内大模型的能力水平以及大�
智源研究院开源代码生成训练数据集与评测基准TACO

TACO是一个专注于算法的代码生成数据集，旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。与当前主流代码评测基准相比，TACO在数据规模、数据质量和细粒度评测方案上具有明显优势。提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签，为代码生成模型的训练与评测更精确的参考。
荐自己发基准自己第一，Anyscale行为惹社区吐槽

前一天发布LLMPerf排行榜，宣称要推动大型语言模型推理领域的发展，鼓励创新与超越。第二天就收获AI社区的大量吐槽，原因是排行榜的「基准甚至没有得到很好的校准」。比如FireworksAI联合创始人、CTODmytroDzhulgakov:TogetherAI的CEO表示:「Anyscale是为了清洗他们API糟糕性能进行的基准测试。

Anyscale
研究揭示：谷歌Gemini Pro在基准测试中落后于免费ChatGPT

根据卡内基梅隆大学的最新研究报告，谷歌最新推出的大型语言模型GeminiPro在基准测试中未能达到预期水平，不仅落后于GPT-3.5远远不及GPT-4。GeminiPro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾，凸显了对中立基准测试机构或流程的迫切需求。尽管谷歌竭尽全力，但其在追赶OpenAI方面仍然表现不佳，对整个AI行业言并非好消息。

Gemini ChatGPT AI头条
Gemini 是谷歌迄今为止最佳的 AI 模型但充满希望的基准测试和演示最终引发了批评

谷歌近日公布了其最新的人工智能模型Gemini，旨在缩小与OpenAI之间的差距，并给行业留下深刻印象。该模型展示了强大的基准测试成绩，并通过一段引人注目的视频演示和即时的可用性，彰显了谷歌的自信。AI领域的快速发展使得人们很难预测Ultra发布时的情况，同时也给了OpenAI足够的时间来用新模型或对GPT-4的适度改进作出回应。

Gemini 谷歌人工智能
中国科大等发布SciGuard大模型建立首个科学风险基准

在中国科大等机构的最新研究中，科学家们发布了一项重要的成果，即SciGuard和SciMT-Safety。这一创新性方法的目标是保护AIforScience模型，以防止其在生物、化学、药物等领域被不当使用。这项研究呼吁全球科技界、政策制定者、伦理学家以及公众共同合作，加强对AI技术的监管，不断完善相关技术，以确保科技的进步是对人类的一次技术升级不是对社会责任和伦理的挑战。
智谱AI发布中文 LLM 对齐评测基准AlignBench

智谱AI发布了专为中文大语言模型生的对齐评测基准AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤，确保具有真实性和挑战性。通过登录AlignBench网站，提交结果可以使用CritiqueLLM作为评分模型进行评测，大约5分钟即可得到评测结果。
GPT-4V都考不过？基于大学水平考试的多模态AI测试基准MMMUs发布

一项基于大学水平考试的多模态AI测试基准MMMUs发布，旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战，通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目，共有1.15万个问题，考察了感知、知识和推理等基本技能。这将有助于推动人工智能领域的发展，引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。

AI
亚马逊 AWS 将提供人类基准测试团队来测试人工智能模型

亚马逊希望用户能够更好地评估人工智能模型，并鼓励更多人参与这一过程。在AWSre:Invent大会上，AWS数据库、分析和机器学习副总裁SwamiSivasubramanian宣布推出宣布Bedrock上的模型评估，现已提供预览，用于评估其存储库AmazonBedrock中的模型。Philomin表示，Bedrock上的基准测试的目标不是广泛评估模型是为公司提供一种衡量模型对其项目影响的方式。

亚马逊 AWS 人工智能
GAIA基准测试揭示人类胜过GPT-4的惊人差距

来自FAIRMeta、HuggingFace、AutoGPT和GenAIMeta的研究人员共同致力于解决通用人工智能助手在处理需要基本技能，如推理和多模态处理的现实问题上所面临的挑战。他们推出了GAIA，这是一个旨在通过定位人类级别的鲁棒性来实现人工通用智能的基准测试。发布注释问题和排行榜旨在解决自然语言处理中的开放式生成评估挑战及其他问题。

GPT-4 GAIA
多模态语言模型新基准AMBER 评估和降低模型中的幻觉问题

AMBER项目是针对多模式语言模型的一个新基准，旨在评估和降低模型中的幻觉问题。幻觉是指当模型在生成文本、图像或音频等多种模态的数据时，可能会产生不准确或误导性的结果。自动化评估流程:提供自动化评估管道，简化用户评估模型性能的过程。

多模态语言模型
SuperCLUE：GPT-4 Turbo中文基准评测领先国内最强模型超过30分

GPT-4Turbo是OpenAI发布的最新ChatGPT模型，具有128K上下文和训练数据知识截止至2023年4月。SuperCLUE表示，GPT-4Turbo在SuperCLUE-OPEN中文通用大模型综合性评测基准上，取得了总分98.4，八项基础能力满分，领先国内最强模型超过30分。5.GPT-4Turbo对函数调用、指令和JSON模式进行了调优，提高了模型的性能。
谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。对于未来的研究，需要进一步探讨不同程度的数据泄露对模型性能的影响，并在预训练中引入数据泄露进行更深入的模拟测试。

大模型
荐 GPT-4完成正确率仅6%，北大等提出首个“多轮、多模态”PPT任务完成基准PPTC

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成基准测试，以评估LLM创建和编辑PPT文档的能力。最近对大型语言模型进行的评估工作主要侧重于在基本自然语言任务上的能力，以及模型生成用于解决单句用户指令的API的工具使用能力，却忽略了在理解复杂多模态环境中使用API完成用户指令的难题�

GPT-4
北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解，同时也提出了未来的挑战和改进方向。

PPTC
GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC

【新智元导读】为了填补LLM在复杂多模态环境中利用复杂工具完成多轮、多模态指令的评估空白，研究人员引入了PowerPoint任务完成基准测试，以评估LLM创建和编辑PPT文档的能力。最近对大型语言模型进行的评估工作主要侧重于在基本自然语言任务上的能力，以及模型生成用于解决单句用户指令的API的工具使用能力，却忽略了在理解复杂多模态环境中使用API完成用户指令的难题。这些发现为未来的语言模型和基于语言模型的agent系统提出了重要的挑战。

GPT-4 PPT
蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。DevOps-Eval将持续优化，丰富评测数据集，重点关注AIOps领域，并增加更多的评测模型。
GPT-4V搞不明白勾股定理！最新基准测试错误率竟高达90%

马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这项研究对于深化我们对大型语言模型的认识，以及推动其在现实世界中的应用具有重要意义。

GPT-4V

热文

3 天
7天

基准电压

与“基准电压”的相关热搜词：

相关“基准电压” 的资讯176篇

热文

站长商机