11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
10月25日,汽车行业AI产品和业务解决方案提供商易慧智能发布了汽车行业首个大模型评测集。此次评测旨在全面评估市面上主流大模型在汽车行业中的实际应用效果,特别关注于汽车营销场景的应用评估。此举不仅强化了易慧智能在汽车AI产品与服务解决方案领域的优势地位,更将实质性地推动AI技术在汽车行业内的创新步伐,实现行业整体效率与客户竞争力的显著提升。
国内首个官方大模型标准符合性评测”结果公布。阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。该评测对外征集了学术界、产业界几十家头部单位意见,覆盖评估语言大模型通用性、智能性的38项具体评测维度,是基于官方大模型测试基准的权威评测。
中国权威的大型模型评估平台OpenCompass最近更新其排名,通义千问72B模型以67.1的高分荣登榜首。OpenCompass是由上海人工智能实验室推出的开源大型模型评估平台,其评估范围涵盖学科、语言、知识、理解和推理五个维度,能够全面评估大型模型的能力。通义千问-72B可以处理最长为32k的文本输入,并且在长文本理解测试集LEval上的表现超过了ChatGPT-3.5-16k。
蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。DevOps-Eval将持续优化,丰富评测数据集,重点关注AIOps领域,并增加更多的评测模型。
容联云赤兔大模型在大模型评测榜单C-Eval刚刚更新的大模型评测中,成绩突出,位居前六,与清华&智谱Al、OpenAl、商汤科技等位居前列。其中70亿参数的容联云赤兔大模型成绩表现超过了几乎所有同等规模的模型,以轻量级模型跻身GPT4等千亿模型为主的top梯队。在赤兔大模型加持下,沟通智能2.0将在AI基础能力、会话分析洞察、对话能力、人机协同四个方面有大幅提升,重构智
8月12日,天津大学和信创海河实验室举办了一次大模型技术与评测研讨会,会上发布了首份大模型评测报告。该报告对国内外14个大语言模型进行了中文综合能力评测,结果显示,GPT-4和百度文心一言相对于其他模型综合性能领先。百度在大模型生态的构建上具备先发优势,目前已经有15万家企业申请接入文心一言测试。
一、前言:面向用户使用场景打造高效的生产力工具6月9日,讯飞星火大模型V1.5正式亮相,时隔一个月后,星火大模型的各项能力获得了持续的提升,此次更新的重点正是突破开放式问答、多轮对话能力和数学能力。在开放式问答能力上,V1.5主要对多轮对话进行了升级,可以完成特定复杂的任务能力,人机共创带来全新机会。今天我们就对讯飞星火认知大模型V1.5版本进行了一番全面的测试,看看它的理解能力与逻辑处理能力上究竟有着怎样的表现。
在今日的2023北京智源大会上,智源研究院宣布推出FlagEval大语言模型评测体系。该体系从“能力、任务、指标”三维评测角度出发,结合超过600个维度对大模型进行全面测评。需要达到百亿参数级别;第二,涌现性,能够产生预料之外的新能力;第三,通用性,不限于专门问题或者领域。
凤凰网科技讯 日前,中国信通院宣布,“可信 AI”大模型评测工作完成,近期将启动编制工作。中国科学院自动化研究所、武汉人工智能研究院研发的“紫东太初”大模型参与了中国信通院组织的可信AI评测工作,顺利完成模型开发和模型能力两部分评测并最终获得4 级评分,成为国内首家通过该项评测的学术机构。参与本次评测的“紫东太初”大模型在模型开发和模型能力两个方面均表现优异。在模型开发方面,模型开发流程及工具链较为完备,从数据管理、模型训练、模型管理到模型部署,全方位支撑大模型开发工作,助力实现研发运营一体化。在模型能