AI基准评测

智谱AI发布了专为中文大语言模型生的对齐评测基准AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤，确保具有真实性和挑战性。通过登录AlignBench网站，提交结果可以使用CritiqueLLM作为评分模型进行评测，大约5分钟即可得到评测结果。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“AI基准评测”的相关热搜词：

相关“AI基准评测” 的资讯53篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
智谱AI发布中文 LLM 对齐评测基准AlignBench

智谱AI发布了专为中文大语言模型生的对齐评测基准AlignBench，这是目前第一个针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。AlignBench的数据集来自于真实的使用场景，经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤，确保具有真实性和挑战性。通过登录AlignBench网站，提交结果可以使用CritiqueLLM作为评分模型进行评测，大约5分钟即可得到评测结果。
AIIA权威AI基准评测瑞芯微RK3399数据抢眼

3月6日，在“AI in 5G——引领新时代论坛”上，人工智能产业发展联盟(AIIA)正式发布“AIIA DNN benchmark V0.5”首轮评估结果。该评估在AIIA权威测试平台完成，基于端侧推断任务的深度神经网络处理器基准测试。在四大典型应用场景下，能够客观反映具有深度学习处理能力的处理器或加速器的性能水平。评估结果显示，海思麒麟980和瑞芯微RK3399表现上佳。“AIIA DNN benchmark V0.5”评估的标准较为严苛，包含四大典型场景和两大类评?

瑞芯微RK3399
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
Nomic AI 发布首个完全开源的长文本嵌入模型，超越 OpenAI Ada-002在各项基准测试中的表现

在自然语言处理领域不断发展的背景下，理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力，特别是通过文本嵌入的发展。它打破了在长文本嵌入领域的准入壁垒，承诺一个未来，其中对话的深度与人类讨论的广度相匹配。

Nomic AI头条
Gemini 是谷歌迄今为止最佳的 AI 模型但充满希望的基准测试和演示最终引发了批评

谷歌近日公布了其最新的人工智能模型Gemini，旨在缩小与OpenAI之间的差距，并给行业留下深刻印象。该模型展示了强大的基准测试成绩，并通过一段引人注目的视频演示和即时的可用性，彰显了谷歌的自信。AI领域的快速发展使得人们很难预测Ultra发布时的情况，同时也给了OpenAI足够的时间来用新模型或对GPT-4的适度改进作出回应。

Gemini 谷歌人工智能
GPT-4V都考不过？基于大学水平考试的多模态AI测试基准MMMUs发布

一项基于大学水平考试的多模态AI测试基准MMMUs发布，旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战，通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目，共有1.15万个问题，考察了感知、知识和推理等基本技能。这将有助于推动人工智能领域的发展，引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。

AI
Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”

Meta今天发布了一个新的AI基准测试，名为FACET，旨在评估在照片和视频中对人和物体进行分类和检测的AI模型的“公平性”。FACET由32，000张包含50，000个人标签的图像组成，这些标签由人类注释者标注。要使用该工具和数据集，开发人员必须同意不将其用于训练计算机视觉模型——只用于评估、测试和基准测试。

Meta
Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B

随着对AI工具的需求增加，对能够完成更多任务的系统的需求也越来越大。企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益，这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。这是由于模型无法处理较长的上下文长度，导致混淆和产生幻觉。

XGen-7B ChatGPT AI头条
微软华人团队发布全新基准AGIEva AI考公指日可待

微软研究人员发布了一个新的基准测试AGIEval，用于评估基础模型在人类认知任务中的表现，包括高考、公务员考试、法学院入学考试、数学竞赛和律师资格考试等。+++实验结果显示，GPT-4在一些任务中的表现超过了人类平均水平，但在需要复杂推理或特定领域知识的任务中不太熟练。评估推理能力可以确保模型在不同环境下的可靠性和可信度。

微软研究人员 AGIEval测试 GPT4
天玑9000 AI基准测试名列前茅：Google Tensor与骁龙888黯然失色

作为 2022 年度最受期待的移动旗舰 SoC 之一，联发科天玑 9000 芯片组刚刚被 AI Benchmark 曝光了它的跑分成绩。据悉，天玑 9000 采用了 4nm 工艺打造，且被视作高通 / 三星 ARMv9 旗舰芯片的有力竞争对手。最终结果是，除了三个类别，联发科在其它测试项目中都有更好的表现。由 AI Benchmark 基准测试数据库上分享的 11 款 SoC 清单可知，联发科天玑 9000 以 692.5 的总分居于榜首。在总计 12 个子项目中，该芯片仅在 INT8 / FP16
浪潮AI服务器创全球权威MLPerf基准测试18项AI性能纪录

美国东部时间10月21日，全球备受瞩目的权威AI基准测试MLPerf公布今年的推理测试榜单，浪潮AI服务器NF5488A5一举创造18项性能纪录，在数据中心AI推理性能上遥遥领先其他厂商产品。MLPerf是当前全球最具影响力的AI计算基准评测组织，由图灵奖得主大卫·帕特森（David?Patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，每年组织全球AI训练和AI推理性能测试并发榜。此次MLPerf的AI推理基准测试有全球23家公司和单位参与，在数据?

浪潮AI服务器
瑞芯微RK3399成首轮通过AI基准测试人工智能芯片

3月6日，人工智能领域迎来重磅盛事——由国际电信联盟、中国信息通信研究院联合主办，人工智能产业发展联盟(AIIA)和中兴通讯承办的国际论坛“AI in 5G——引领新时代论坛”在深圳召开。此次国际论坛除深入探讨AI赋能5G网络智能化及行业应用创新外，AIIA还正式发布“AIIA DNN benchmark V0.5”首轮评估结果。海思麒麟980和瑞芯微RK3399，成功通过评估。据悉，AIIA DNN benchmark V0.5测试评估主要面向端侧，旨在客观反映具有深度神?

瑞芯微RK3399
数据上线，评测开启！2024 6G无线通信AI大赛正式开战！

20246G无线通信AI大赛正式擂鼓开战!2月20日，大赛数据上线，同步开启评测。诚邀大家速速回归“战时”竞技状态，一起打擂冲榜、揭榜挂帅!期待各位选手，以龙腾虎跃之姿、雷霆万钧之力，引爆龙年赛事第一弹!大赛官网:https://www.datafountain.cn/special/WAIC-20246GAI大赛简介通信与人工智能技术的深度融合已成为无线通信系统发展的最重要方向之一。获奖队伍对应的奖金安排如下:奖项金额队伍数量一等奖¥300，000共1支队伍二等奖¥50，000/队共2支队伍三等奖¥20，000/队共3支队伍优胜奖¥10，000/队共4支队伍说明:以上奖金为税前奖金，奖金个人所得税或其他形式税收将由获奖者承担，由大赛承办方代扣代缴，参赛团队应自行负责在其成员之间分配和分发奖金，主办方对此将不承担任何责任。
“SUPER”快，影驰 GeForce RTX 4070 SUPER 星曜 OC 评测！带你速闯AI新领域

在本次NVIDIA发布中所出现的GeForceRTX4070SUPER、4070TiSUPER和4080SUPER，均是基于AdaLovelace架构，为用户们的游戏体验带来更多的选择，同时也将带来更多不同的性能表现。首先来看一下影驰GeForceRTX4070SUPER星曜OC与GeForceRTX3070和GeForceRTX2070的规格参数对比:产品开箱并搭载全新“负能量”检测系统，不同状态下呈现出不同灯效——即在开机显卡若闪烁黄灯，表示显卡外界供电异常;开机显卡若闪烁红灯，则表示主板供电异常，用户排障更直观!产品拆解首先大家先来了解一下影驰GeForceRTX4070SUPER星曜OC的内部结构。除了本文所评测的影驰GeForceRTX4070SUPER星曜OC推出了GeForceRTX4070SUPER金属大师/大将系列，每个系列都各具其独特的外观语言以及性能特点，能够满足不同用户的装机喜好和需求。
AI性能持续释放！耕升 GeForce RTX 4070 SUPER 星极皓月 OC 评测解禁

今晚22:00，耕升GeForceRTX4070SUPER系列显卡正式开售!其中耕升GeForceRTX4070SUPER踏雪Mini显卡作为首发产品于今晚与大家见面，建议零售价为4899元!追风、皓月等系列显卡将于之后陆续上架电商平台，敬请期待!就在昨天，耕升为大家带来了MSRP耕升GeForceRTX4070SUPER踏雪Mini的性能评测。耕升GeForceRTX4070SUPER星极皓月OC是一款经过耕升精心打造的GeForceRTX40SUPER系列显卡，基于全新的NVIDIAAdaLovelace架构，诸多NVIDIARTX技术在此系列GPU下皆有支持，包括DLSS3、光线追踪技术、Reflex技术等等。让我们一同探寻耕升GeForceRTX4070SUPER星极皓月OC在测试中所展现出的卓越性能!拆解图例首先来一起看看耕升GeForceRTX4070SUPER星极皓月OC的内部构造。
建筑学长-丢丢——AIGC|DELL Precision专业移动工作站AI绘图评测

各位好久不见，我是丢丢，你们熟悉的那个男人又回来了！最近AIGC的大火，丢丢已经沉迷于StableDiffusion无法自拔了，奈何自己的电脑硬件配置一直不是很好，刚狠下心打开我们家祖传的储钱罐含泪买了一台搭载NVIDIARTX4090显卡的笔记本电脑，心想这下总可以随便出图了吧！所以从稳定性上来看是专业级显卡好一些，但如果从性价比上来看，搭载消费级显卡的笔记本会是更好的选择。
占美智能AI笔记本评测：AI 加持的高效办公+学习神器

对于笔记本电脑来说、很多人的使用需求主要是用于办公、学习。如果有一款笔记本，能够帮你做各类报表PPT，快捷翻译、帮你做作业、回答各类问题，提升你的办公、学习效率，那么你会考虑吗？比较适合学生、电脑操作不熟悉、以及办公需求较多的人群。
智源研究院开源 AI 硬件评测引擎FlagPerf v1.0

智源研究院发布了FlagPerfv1.0，这是一个开源开放的AI硬件评测引擎。FlagPerf的评测指标体系包括功能正确性指标、性能指标、资源使用指标和生态适配指标。所有测试代码都已开源，测试过程和数据可复现。
荐文心一言放开后，我们评测了百度搜索的「AI伙伴」

百度突然官宣，文心一言全面开放，人人都能上手用了!官网地址:https://yiyan.baidu.com现在，只需登陆「文心一言官网」即可体验。真正重磅的是，一批全新重构的百度AI原生应用，包括百度搜索、「文心一言APP」、输入法、百度文库率先开放。人手一个AI搜索，就是现在。

AI伙伴
甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

夕小瑶科技说分享Lucy，是距今320万年最早的人类祖先，也是被输入某种“物质”后大脑开发到100%的超智能人类，能感知宇宙万物，拥有人类所有知识。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物质“。本次受测中文大语言模型平均得分未来，甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标，持续研究适应其发展的测试集，期待与同样关注大语言模型发展的业界同仁携手共建。
让孩子爱上口语表达，猿辅导推出首个AI口语评测技术

孩子英语口语发音不准？孩子不会用英语表达？在孩子学习英语的过程中，这些口语练习经常困扰着大家，家长们也不知该如何帮助孩子去解决这些问题。其实，在猿辅导的英语课堂上，AI正在解决这些难题。猿辅导拥有业内首个幼儿端到端AI口语评测技术，猿辅导AI口语评测技术以专家评分标准为基础，基于人工智能、深度学习、数据挖掘、语音识别等技术研发完成，自 2018 �
中国信通院“可信 AI”大模型评测完成近期启动编制工作

凤凰网科技讯日前，中国信通院宣布，“可信 AI”大模型评测工作完成，近期将启动编制工作。中国科学院自动化研究所、武汉人工智能研究院研发的“紫东太初”大模型参与了中国信通院组织的可信AI评测工作，顺利完成模型开发和模型能力两部分评测并最终获得4 级评分，成为国内首家通过该项评测的学术机构。参与本次评测的“紫东太初”大模型在模型开发和模型能力两个方面均表现优异。在模型开发方面，模型开发流程及工具链较为完备，从数据管理、模型训练、模型管理到模型部署，全方位支撑大模型开发工作，助力实现研发运营一体化。在模型能

模型能力互联网企业模型
数智评测室 | 科力屋全新系列Ai方位存在感应面板深度评测

圈内智能面板的更新速度极快，潮流款式几乎年年有重磅更新，但是今年智能家居的面板创新，主要依然围绕UI、材质以及协议改进。科力屋正在从深度场景应用的角度，为智能面板品类创造一个崭新的思路。在很多细节的调试方面，科力屋因为一直专注智能家居的场景体验，所以在这款面板的结合上面，逻辑非常深，考虑得非常细致。

毫米雷达波毫米雷达波毫米波雷达
科大讯飞智慧家庭AI语控面板体验评测

近几年，科大讯飞深耕布局多场景下的智能空间打造，以智能语控为抓手，有效利用多通道语音输入以解决在复杂场景下的语音识别问题，在家庭、会议、教室、医院、会展等不同的空间场景均发挥出了现象级表现；智慧家庭AI语控面板还能够与智能照明系统实现有效连接，从而进行并实现智慧家庭全场景智能化控制......

科大讯飞智慧家庭A AI语控面板智能语控面板
广东未来科技GLOBAL3 AI 3D立体数码相机深度评测

我们生来就爱观察。当我们出生后第一次好奇地观察这个世界时，一定是兴奋的;童年时光，在入学后小心翼翼地适应学习环境时，一定是激动的;青葱岁月，走进大城市，感叹摩天大楼的高耸时，一定是新奇的;在过去，一个人一辈子都走不出一座大山。而现在，一部手机一次触碰就能走遍世界。但是，在当今社会，信息的爆炸式增长是事实，那么反观信息的良莠不齐也是现状。你是否有过这样的烦恼:当你满心欢喜地点开一张照片，可是却发现它糊得

未来科技
科大讯飞AI学习机T10全面开售，深度上手评测来了

自7月15日科大讯飞发布高端旗舰学习机: 科大讯飞AI学习机T10以来，这款被誉为“开启AI学习新时代”的AI学习机引起了家长和教育人士的热议。T10全面开售之后，小编第一时间抢到了一台，目前已深度使用了一段时间，这篇新鲜出炉的体验评测，供您参考。1600万像素一体式升降双目摄像头+AI作答笔2.0，配置拉满作为科大讯飞最新发布的一款高端旗舰学习机，科大讯飞AI学习机T10有着绝对诚意的硬件配置:13英寸超高清润眼屏、10150mAh超大

科大讯飞科大讯飞AI学习机T10
地平线MAPS评测方法迎来标准立项重新定义AI芯片性能评估

3 月10 日，由北京地平线机器人技术研发有限公司和南京芯驰半导体科技有限公司联合牵头发起，中国智能网联汽车产业创新联盟（CAICV）提出的《智能网联汽车视觉感知计算芯片技术要求和测试方法》CSAE标准已按《中国汽车工程学会标准（CSAE）制修订管理办法》有关规定通过立项审查，正式列入中国汽车工程学会2021 年度标准研制计划（起草任务号：2021-15）。在多项核心技术经过潜心研发和验证之后，2021 年智能网联汽车产业加速进入?

AI芯片
小度首款真无线蓝牙耳机评测：坐镇AI同声传译一款高颜值、高音质的智能助手

大家还记得2019年上映的由刘慈欣同名小说改编的国产科幻片《流浪地球》么？里面男主角吴京在太空站佩戴一款具备“同声传译”功能的智能耳机，就可以和一口俄腔的外国友人无障碍交流。时隔一年半，百度旗下的硬件品牌「小度」于今年9月就推出了同样酷炫功能的「小度智能耳机」！TechWeb有幸第一时间拿到新机、深度体验了一番。通过连接小度APP，小度智能耳机在「流浪地球」模式下可以让两个人各戴一只耳机，为一英一中的

小度蓝牙耳机
提供一站式AI口语评测能力，声网AI互动课堂全新升级

2018 年以来，中国在线教育市场规模和用户规模双双保持稳健增长势头。很多初创企业和传统线下教育企业纷纷涌入这一赛道。竞争越来越激烈的同时，也面临着运营成本高、教学体验差、师资紧缺等诸多挑战。通过技术手段，尤其是人工智能技术对互动直播课堂进行创新，来提升教学体验，兼顾效果和效益，成为在线教育机构的重要关注点。其中，人工智能语音技术的迅猛发展，使得大规模的机器口语测评成为可能，成为AI辅助教学的重要工具?

AI口语评测
全景AI随心语音操控康佳电视LED55U5评测

随着科技进步，电视也越来越智能化，颜值也越来越高，然而虽然市场上几乎每台电视都标称智能，但真正可以智能互动操控的55寸电视价格动辄4000以上，那么到底有没一款既有颜色性价比又真正智能的电视呢?康佳最近推出了新品U5系列，拥有全景AI语音操控、全面屏贴合技术、4K HDR2明亮高动态、高配置四大优点，值得一看。康佳U5系列电视配备康佳全景AI技术，具有图像识别、AI易生活、全民K歌、智能关屏四大卖点。康佳U5电视有43/50/

康佳电视

热文

3 天
7天

AI基准评测

与“AI基准评测”的相关热搜词：

相关“AI基准评测” 的资讯53篇

热文

站长商机