11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
混乱的14nm产品线导致Intel总是能拿出一些奇怪的产品,比如新晋现身的i9-9990XE。
AMD的全球首款7nm游戏显卡Radeon VII(Radeon 7)将于2月4日(大年三十)上市,定价699美元,据说国行在5500~6000元之间,比对标产品RTX 2080 FE便宜500~1000元,颇有诚意。
今年年初,知名基准测试平台GeekBench发布了6.0版本,大幅调整了跑分算法。GeekBench发布了6.1版本更新,在所有平台纳入Clang16参数后,能够更为准确的反映设备的多核性能表现。具体更新内容,与更多相关信息,可前往官网页面查看。
在创新活动的第二天,英特尔放出了 Sapphire Rapids 至强可扩展芯片的首份基准测试数据...AMD 即将推出的 Zen 4 霄龙(EPYC)服务器处理器、提供了多达 96C / 192T 的选项,另有云优化的 128C / 256T 衍生 SKU...在当天晒出的这组基准测试图表中,英特尔侧重于展示 Sapphire Rapids 芯片上的各款加速器的表现,以及如何较更高核心数 AMD EPYC 竞品更智能地工作并降低能耗......
尽管 Ampere 的 Altra Max CPU 已经推出有段时间,但知名超频专家 Der8auer 还是决定拿一枚80核 ARM 处理器进行测试,以评估它在标准 PC 基准测试中的表现...最后,开盖表明 Ampere Altra Max Q8030CPU 采用了基于 TIM 的焊料、且芯片尺寸达到了573.75m㎡(22.5×25.5mm)......
从 Geekbench 基准测试数据库曝光的首个跑分成绩来看,其表现确实大幅超越了 28 核的 Intel Mac Pro 高端机型...这项测试中的 Mac Studio 机型为 Mac13,2(20 核 CPU),单核得分 1793 / 多核成绩 24055...M1 Ultra 在单核性能上领先 28 核 Mac Pro 达 21%,多核性能更是拉开了 56% 的差距 —— 接近本场发布会上官宣的 60% 数据...
英伟达即将于 5 月 31 日正式揭开 GeForce RTX 3080 Ti 独显的神秘面纱,基准测试数据库也陆续曝出了它的跑分成绩。早些时候,Geekbench 已证实 RTX 3080 Ti 的 CUDA 性能与 RTX 3090 相当。现在,又有人在旧版《奇点灰烬》中对其 DX12 游戏性能进行了一番测试。目前《奇点灰烬》基准测试数据库中只有列出这一套基于 RTX 3080 Ti 独显的跑分成绩,猜测这份成绩或基于一块评测用的 RTX 3080 Ti 显卡得出。此外由于测试者使用了高端?
日前英伟达官方的 GeForce RTX3060 Ti 显卡性能基准测试被外媒 Videocardz 泄露了出来。数据显示,GeForce RTX3060 Ti 在各方面的表现似乎都比基于图灵的 GeForce RTX2080 SUPER 要好,这将使它成为一款相当不错的1080p 甚至1440p 游戏显卡。
苹果即将在本月的发布会上揭晓首款搭载自研ARM芯片的Mac新机,但在此之前,网络上已经曝光了“A14X”芯片的基准测试成绩。可知这枚八核芯片的基础频率为1.8GHz,动态加速可达3.1GHz——标志着首款主频超过3GHz的AppleSilicon定制芯片——辅以8GBRAM,单核/多核得分为1634/7220。
三星 Galaxy A71 已于本周三在印度上市,价格为 29999 卢比(2938 RMB),不过该机属于采用高通骁龙 730 SoC 的纯 4G 制式机型。有消息称,三星还有另一款支持 5G 网络制式的 Galaxy A71 机型。近日,网络上曝光了型号为 SM-A7160 的设备,且其基准测试成绩已被 Geekbench 数据库曝光,它很可能就是 5G 版的 Galaxy A71 。
外媒报道称,Geekbench 数据库近期新收录了两份高通骁龙 SC8180X(即 8cx)芯片的基准测试成绩。作为对标英特尔中端移动产品线的平台,测试设备上运行的是 64 位版本的 Windows 10 操作系统,处理器单核 / 多核性能分别为 3327 / 11154 。尽管可能没有全面超越英特尔酷睿 i5-8250U,但它的工作表现应该差不到哪去。
外媒 91 Mobiles 刚刚爆料了一款疑似三星 Galaxy M10S 的入门新机,配置上可能较今年早些时候推出的 Galaxy M10 略有升级。由 Geekbench 基准测试网站信息可知,其机型代号为 SM-M107F,采用了 Exynos 7885 这颗发布于去年的中端芯片组。同样的芯片也出现在包括 Galaxy A8+(2018)和 Galaxy J7 Duo(2018)等在内的多款设备上。
英特尔九代酷睿旗舰处理器有望在下月到来,而网络上已经冒出了酷睿 i7-9700K 的基准测试对比成绩,以及 i9-9900K 和 i5-9600K 的更多信息。此前的 Geekbench 成绩显示,酷睿 i7-9700K 的单双 / 核跑分分别可以达到 6297 / 30152 。尽管比 AMD 锐龙 7 2700X 提升了 20%,但仅比上一代 i7-8700K 多出 4 个百分点。
距离华为荣耀6智能手机发布已过去数日,该机搭载了Hisilicon Kirin 920八核处理器。Dospy获悉,对应华为荣耀6的各项基准测试成绩已经公布。
HuggingFace发布了一项名为OpenMedical-LLM的新基准测试,旨在评估生成式人工智能模型在健康相关任务上的表现。该基准由HuggingFace与非营利组织OpenLifeScienceAI和爱丁堡大学自然语言处理小组的研究人员合作创建。测试生成式人工智能工具在实验室中的性能如何转化为医院和门诊诊所的实际情况,以及这些结果可能随时间变化的趋势,都是异常困难的。
MetaAI研究人员今天发布了OpenEQA,这是一个新的开源基准数据集,旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界,从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准,其中包含超过1,600个关于180多个真实环境的问题。为了衡量人工智能代理的性能,研究人员使用大型语言模型自动评分,衡量人工智能生成的答案与人类答案的相似程度。
CheckPointInfinity平台被评为领先的零信任安全解决方案,可提供卓越的用户体验和可靠的安全性。2024年3月,领先的云端AI网络安全平台提供商CheckPoint®软件技术有限公司近日宣布,其CheckPointInfinity平台在最新的Miercom零信任平台评估中排名第一。Miercom提供包括竞争性产品分析和产品评估在内的专有测试服务,拥有全面的认证和测试方案。
多模态大型语言模型在视觉情境下的表现异常出色,引起了广泛关注。它们解决视觉数学问题的能力仍需全面评估和理解。这表明需要更先进的数学专用视觉编码器,突显了MLLM发展的潜在未来方向。
在人工智能领域,多模式大语言模型在推动进步方面发挥了巨大作用,但它们面临处理误导性信息的挑战,可能导致不正确或产生幻觉的响应。这种脆弱性引发了对MLLM在需要准确解释文本和视觉数据的应用中可靠性的担忧。作为一个不断发展的领域,解决这些挑战对于在现实应用中部署MLLMs至关重要。
CheckPoint实现了99.8%的新型恶意软件拦截率、100%的网络钓鱼防御率和0.13%的业内领先的超低误报检测率2024年2月—领先的云端AI网络安全平台提供商CheckPoint软件技术有限公司今天宣布,其CheckPointInfinity平台在Miercom的2024年下一代防火墙安全基准测试报告中表现优异,01日恶意软件拦截率和网络钓鱼防御率分别高达99.8%和100%。其他四家安全厂商的平均新型恶意软件拦截率仅为69.2%。Mie
随着大模型的崛起,RNN模型Eagle7B挑战了Transformer的霸主地位。该模型在多语言基准测试中表现卓越,同时推理成本降低数十倍。通过不断探索和创新,人工智能技术将更好地为人类社会和个体提供服务。
在自然语言处理领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。它打破了在长文本嵌入领域的准入壁垒,承诺一个未来,其中对话的深度与人类讨论的广度相匹配。
华中科技大学等机构发布了一项关于多模态大模型的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAIGPT-4V等,覆盖了五大任务、27个数据集。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。
智源研究院发布了中文多模态模型评测基准CMMU,旨在为中文多模态模型领域提供一个全面、中立的评测基准。该评测基准目前发布了CMMUv0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。智源研究院将持续邀请教师改编或新编学科考题,扩充CMMU评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。
蚂蚁集团旗下CodeFuse发布了首个面向ToolLearning领域的中文评测基准ToolLearning-Eval,旨在帮助开发者跟踪和了解各个ToolLearning领域大模型的优势与不足。该评测基准按照FunctionCall流程划分为工具选择、工具调用和工具执行结果总结三个过程,并提供了相应的数据集供通用模型进行评测分析。ToolLearning-Eval项目将不断优化评测数据集、拓展多工具多轮对话数据集,增加评测模型,并�
12 月 28 日,“大模型·大未来” 2023 人工智能大模型基准测试科创发展大会暨中西部数字经济峰会(下称“大会”)在成都举行。经过前期多轮系统评测,“ 360 智脑”在通用大模型类目的“语言知识、学科知识、数学推理、安全可靠”四个维度表现优异,荣获了“大模型基准评测专业委员会”颁发的四个奖项。 据悉,此次大会旨在深入了解当前国内大模型的能力水平以及大�
TACO是一个专注于算法的代码生成数据集,旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。与当前主流代码评测基准相比,TACO在数据规模、数据质量和细粒度评测方案上具有明显优势。提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签,为代码生成模型的训练与评测更精确的参考。
前一天发布LLMPerf排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。第二天就收获AI社区的大量吐槽,原因是排行榜的「基准甚至没有得到很好的校准」。比如FireworksAI联合创始人、CTODmytroDzhulgakov:TogetherAI的CEO表示:「Anyscale是为了清洗他们API糟糕性能进行的基准测试。
根据卡内基梅隆大学的最新研究报告,谷歌最新推出的大型语言模型GeminiPro在基准测试中未能达到预期水平,不仅落后于GPT-3.5远远不及GPT-4。GeminiPro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾,凸显了对中立基准测试机构或流程的迫切需求。尽管谷歌竭尽全力,但其在追赶OpenAI方面仍然表现不佳,对整个AI行业言并非好消息。