模型评测

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“模型评测”的相关热搜词：

相关“模型评测” 的资讯11028篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
智源发布多模态模型中文评测基准CMMU

智源研究院发布了中文多模态模型评测基准CMMU，旨在为中文多模态模型领域提供一个全面、中立的评测基准。该评测基准目前发布了CMMUv0.1版本，其中包含了3603道题目，涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。智源研究院将持续邀请教师改编或新编学科考题，扩充CMMU评测集，以保证评测结果客观、公正，并探索基于判别模型的评测方式，以适应多模态模型的发展需要。
百川智能发布大模型Baichuan3 称中文评测超越GPT-4

百川智能于1月29日推出了拥有超过千亿参数的大型语言模型Baichuan3。该模型在多个公认的通用能力评估，如CMMLU、GAOKAO和AGI-Eval等，都展示了卓越的表现，特别是在中文任务上更是超过了GPT-4的水平。Baichuan3全面的通用能力以及在医疗领域的强大表现，将为百川智能打造“超级应用”，把大模型技术落地到诸多复杂应用场景提供有力支撑。

百川智能 Baichuan GPT4
荐 ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

【新智元导读】当前的视觉模型哪个更好?Meta团队最新一波研究来了。如何根据特定需求选择视觉模型?ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指标上如何相互比较?来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。-CLIP模型具有较高的形状偏差，与其ImageNet精度相比，分类错误较少。

Transformer
GPTEval3D官网体验入口 GPT4-V生成模型评测工具下载地址

GPTEval3D是一个开源的3D生成模型评价工具，基于GPT-4V实现了对文本到3D生成模型的自动评测。它可以计算生成模型的ELO分数，并与现有模型进行对比排名。要获取更多详细信息并开始使用GPTEval3D进行评测工作，请访问GPTEval3D官方网站。

GPTEval3D
360智脑多个维度表现优异，荣获“大模型基准评测专业委员会”四个奖项

12 月 28 日，“大模型·大未来” 2023 人工智能大模型基准测试科创发展大会暨中西部数字经济峰会（下称“大会”）在成都举行。经过前期多轮系统评测，“ 360 智脑”在通用大模型类目的“语言知识、学科知识、数学推理、安全可靠”四个维度表现优异，荣获了“大模型基准评测专业委员会”颁发的四个奖项。据悉，此次大会旨在深入了解当前国内大模型的能力水平以及大�
国内首个官方大模型评测结果出炉！阿里云通义千问首批通过评测

国内首个官方大模型标准符合性评测”结果公布。阿里云通义千问成为首批通过评测的四款国产大模型之一，在通用性、智能性等维度均达到国家相关标准要求。该评测对外征集了学术界、产业界几十家头部单位意见，覆盖评估语言大模型通用性、智能性的38项具体评测维度，是基于官方大模型测试基准的权威评测。
理想汽车全自研大模型Mind GPT 综合性评测榜单双榜第一

理想汽车官方发文称，理想自研MindGPT中文大模型综合性评测榜单双榜第一。两大冠军如下:1、C-Eval中文大模型综合性测评榜冠军C-Eval是清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件，覆盖人文、社科、理工等多个方向共52个学科。MindGPT为理想车主添加了三个助手和一个老师，分别是专业的用车助手、得力的出行助手、有趣的娱乐助手以及博学的百科老师。

理想汽车 AI大模型 MindGPT
通义千问72B模型荣登大模型评测平台OpenCompass榜首

中国权威的大型模型评估平台OpenCompass最近更新其排名，通义千问72B模型以67.1的高分荣登榜首。OpenCompass是由上海人工智能实验室推出的开源大型模型评估平台，其评估范围涵盖学科、语言、知识、理解和推理五个维度，能够全面评估大型模型的能力。通义千问-72B可以处理最长为32k的文本输入，并且在长文本理解测试集LEval上的表现超过了ChatGPT-3.5-16k。
理想汽车：理想Mind GPT中文大模型综合性评测榜第一名！

在刚刚举行的理想汽车智能软件发布会上，理想汽车官宣，在OTA5.0中，理想同学最大的变化，就是引入了MindGPT的能力。MindGPT是理想全自研的多模态认知大模型，它可以与汽车进行一个完美的融合，让每位家庭成员都能在车里体验到最好的AI。MindGPT基于理想同学的重点场景，量身定制了覆盖111个领域、超过1000种以上的专属能力还在不断进化和快速成长中。
荐大模型跑分家家碾压GPT-4，评测榜单是时候升级了？

今天在朋友圈看到一张图:国内的“百模大战”已升级成“两百模大战”，据不完全统计，今年1-7月国内共发布了64个大模型，截至目前叫得出名字的国产大模型已接近200家。这么多大模型，哪些是真能打的?在每天冒出来的各类“榜单”上出现了“家家第一”的情况，甚至已不止一款国产大模型“碾压”了GPT-4，且很多“世界顶级”大模型是出自刚成立的团队之手。有没有B端客�

大模型
智源研究院开源JudgeLM 可评测各类大模型并输出评分

智源研究院开源了一种名为JudgeLM的裁判模型，可以高效准确地评判各类大模型。与GPT-4相比，JudgeLM仅需1/120的成本，就能达到90%以上的评判结果一致性。JudgeLM团队将进一步完善这一裁判模型，提供更准确、高效、覆盖更多场景的大语言模型评判。
SuperCLUE：GPT-4 Turbo中文基准评测领先国内最强模型超过30分

GPT-4Turbo是OpenAI发布的最新ChatGPT模型，具有128K上下文和训练数据知识截止至2023年4月。SuperCLUE表示，GPT-4Turbo在SuperCLUE-OPEN中文通用大模型综合性评测基准上，取得了总分98.4，八项基础能力满分，领先国内最强模型超过30分。5.GPT-4Turbo对函数调用、指令和JSON模式进行了调优，提高了模型的性能。
蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval

蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题，共计4850道题目。DevOps-Eval将持续优化，丰富评测数据集，重点关注AIOps领域，并增加更多的评测模型。
香港中文大学发布全面中文大语言模型评测CLEVA

香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法，这一方法已经被EMNLP2023SystemDemonstrations录取。这一评测方法名为CLEVA，是由香港中文大学计算机科学与工程学系的王历伟助理教授领导的研究团队开发的，与上海人工智能实验室合作研究。其他研究团队也可以通过CLEVA网站提交和对接评测结果，从促进大模型能力的认知和评测。

CLEVA
全面的中文大语言模型评测来啦！香港中文大学研究团队发布

ChatGPT的一声号角吹响了2023年全球大语言模型的竞赛。2023年初以来，来自工业界和研究机构的各种大语言模型层出不穷，特别值得一提的是，中文大语言模型也如雨后春笋般，在过去的半年里不断涌现。”“对大模型能力认知和评测的研究本身，也一定会帮助研究团队理解和加强持续提高大模型的能力。

大语言模型
荐国产大模型推理能力已超GPT-3.5！冲进OpenAI评测榜第一梯队

OpenAI开源的数学数据集，中国厂商新成绩一举冲到最前列!就在9月16日，国产大模型在权威推理评测集GSM8K中，首次达到了80%正确率，大幅领先GPT-3.5和LLaMA2-70B。且这家厂商在大模型榜单上刷新全球纪录，已经不是第一次了。可以不夸张地说一句，昆仑万维和它家的天工大模型，已经是大模型江湖中，一个绕不过去的狠角色了。

国产大模型 GPT-3.5 OpenAI
甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

夕小瑶科技说分享Lucy，是距今320万年最早的人类祖先，也是被输入某种“物质”后大脑开发到100%的超智能人类，能感知宇宙万物，拥有人类所有知识。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物质“。本次受测中文大语言模型平均得分未来，甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标，持续研究适应其发展的测试集，期待与同样关注大语言模型发展的业界同仁携手共建。
容联云赤兔大模型在大模型评测榜单 C-Eval 上位居前六

容联云赤兔大模型在大模型评测榜单C-Eval刚刚更新的大模型评测中，成绩突出，位居前六，与清华&智谱Al、OpenAl、商汤科技等位居前列。其中70亿参数的容联云赤兔大模型成绩表现超过了几乎所有同等规模的模型，以轻量级模型跻身GPT4等千亿模型为主的top梯队。在赤兔大模型加持下，沟通智能2.0将在AI基础能力、会话分析洞察、对话能力、人机协同四个方面有大幅提升，重构智
天津大学大模型评测报告：GPT-4和百度文心一言显著领先

8月12日，天津大学和信创海河实验室举办了一次大模型技术与评测研讨会，会上发布了首份大模型评测报告。该报告对国内外14个大语言模型进行了中文综合能力评测，结果显示，GPT-4和百度文心一言相对于其他模型综合性能领先。百度在大模型生态的构建上具备先发优势，目前已经有15万家企业申请接入文心一言测试。
荐阿里100瓶毒药解马斯克难题？国内首个大模型价值对齐数据集开源，15万评测题上线！

让模型和人类价值观对齐的难题，已经困扰到了业界最顶尖的大佬。怎么破?国内10多个领域的资深专家学者，竟给AI喂了100瓶毒药!如何让AI和人类的价值观对齐?这个问题，曾经难倒了业界的一众大佬。AI不仅要一视同仁要服务于人。

AI AI大模型阿里
告别搜索引擎！讯飞星火认知大模型评测：改变人机交互方式还能帮你写代码！

一、前言：面向用户使用场景打造高效的生产力工具6月9日，讯飞星火大模型V1.5正式亮相，时隔一个月后，星火大模型的各项能力获得了持续的提升，此次更新的重点正是突破开放式问答、多轮对话能力和数学能力。在开放式问答能力上，V1.5主要对多轮对话进行了升级，可以完成特定复杂的任务能力，人机共创带来全新机会。今天我们就对讯飞星火认知大模型V1.5版本进行了一番全面的测试，看看它的理解能力与逻辑处理能力上究竟有着怎样的表现。

高效生产力工具开放式问答能力逻辑推理
智源研究院推出FlagEval“天秤”大模型评测体系

在今日的2023北京智源大会上，智源研究院宣布推出FlagEval大语言模型评测体系。该体系从“能力、任务、指标”三维评测角度出发，结合超过600个维度对大模型进行全面测评。需要达到百亿参数级别;第二，涌现性，能够产生预料之外的新能力;第三，通用性，不限于专门问题或者领域。

天秤大语言模型评测体系智源研究院大模型特点
中国信通院“可信 AI”大模型评测完成近期启动编制工作

凤凰网科技讯日前，中国信通院宣布，“可信 AI”大模型评测工作完成，近期将启动编制工作。中国科学院自动化研究所、武汉人工智能研究院研发的“紫东太初”大模型参与了中国信通院组织的可信AI评测工作，顺利完成模型开发和模型能力两部分评测并最终获得4 级评分，成为国内首家通过该项评测的学术机构。参与本次评测的“紫东太初”大模型在模型开发和模型能力两个方面均表现优异。在模型开发方面，模型开发流程及工具链较为完备，从数据管理、模型训练、模型管理到模型部署，全方位支撑大模型开发工作，助力实现研发运营一体化。在模型能

模型能力互联网企业模型
超越华为盘古千亿模型搜狗搜索再创中文语言理解评测CLUE世界第一

近日，搜狗搜索技术团队在CLUE（中文语言理解测评基准）的任务比赛中，基于自研的中文预训练模型击败了包括华为盘古在内的一众强劲对手，在CLUE总榜、分类总榜、阅读理解榜再次获得第一名，刷新业界记录。“BERTSG”为搜狗搜索自研模型，“HUMAN”为人类成绩（不计入选手）不惧业内强劲挑战搜狗搜索用技术与算法彰显实力作为中文语言理解领域最具权威性的测评基准之一，CLUE基于原始的中文文本语料共开设了 8 个方向的比赛，由文?

搜狗搜索
疑似iPhone 8模型上手评测

据外媒报道，已经有大神为我们带来了传说中的iPhone 8模型的上手体验以及与iPhone 7 Plus的对比图。从分享的画面可以看出，这个iPhone 8模型与之前推特泄密达人预期的不同，外壳采用银色+黑色双色搭配，而不是后者声称的全黑配色。而且最让人欣慰的莫过于指纹识别没有设置在机身背部。

iPhone8 iPhone8评测
荐震撼！GPT-4 Turbo级国产大模型登场，周冠宇F1赛事数据秒分析惊呆国际大佬

中国的大模型，已经震惊了外国科技圈。这几天商量大模型的更新，直接让外国网友惊呼:太疯狂了，中国的AI界究竟还有多少我们不知道的巨变?不怪这些网友太大惊小怪——最近全新升级的日日新·商量大模型5.0，在基础能力上再次重大更新，直接把大模型能力升级到新的阶段，直观印象可感的那种。还真是有点期待日日新6.0的诞生了。

大模型
荐字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。字节提出新基础模型——ViTamin，专为视觉语言时代设计。更多大模型算法相关岗位开放中。

字节
聚焦AI大模型激发城市新活力城市云数字领军人才研修班·东莞站成功举办

新一代人工智能发展如火如荼，大模型如何落地推动数字转型赋能城市发展?4月25日，以“AI大模型打造城市新质生产力”为主题的城市云数字领军人才研修班在东莞举办。国家信息中心信息化和产业发展部主任单志广、东莞市发展与改革局副局长魏亚东、中国信息通信研究院云计算与大数据研究所政企数字化转型部主任徐恩庆、广东工业大学机电工程学院院长刘强、华为云中国区副总裁刘少华，全国20多个省市城市数字化建设相关负责人等政府、高校、研究院以及企业的专家、学者参加了此次活动。“城市云数字领军人才研修班”将针对不同层级、领域、区域的数字化建设者，建立差别化的课程体系，紧扣智慧城市、数字政府、数字化转型实际需要，增强学员的数字思维和专业素质，为全面增强数字城市建设效能提供重要人才保障。

人工智能大数据数字化转型
Interactive3D：可直接通过交互操作指导3D模型生成

Interactive3D技术为3D内容的创造和修改提供了一种极其灵活的方法。用户可以直接通过交互操作来指导3D模型的生成，这一过程不仅直观具有高度的创造性。无论是专业的3D设计师还是业余爱好者，都能通过这一技术轻松实现自己的创意构想。

3D模型 AI头条

热文

3 天
7天

模型评测

与“模型评测”的相关热搜词：

相关“模型评测” 的资讯11028篇

热文

站长商机