甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

2023-08-31 13:51 · 稿源：站长之家用户

夕小瑶科技说分享

Lucy，是距今 320 万年最早的人类祖先，也是被输入某种“物质”后大脑开发到高的超智能人类，能感知宇宙万物，拥有人类所有知识。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物质“。

随着大语言模型不断调优，大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同，如何最快速地判断机器是否能正确理解人类的知识和语言，成为我们共同关注的问题。

由此，甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval，能够通过对模型各方面能力的客观测试，找到模型的不足，帮助设计者和工程师更加准确地调整、训练模型，助力大模型不断迈向更智能的未来。

Lucy的每一个字母背后都代表了不同的意义，包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。

L - Linguistic Fundamentals: 基础理解能力
U - Utilization of Knowledge: 知识运用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含义：

Linguistic Fundamentals (基础理解能力) ：描述模型对基础语法、词汇和句子结构的理解程度。

Utilization of Knowledge (知识运用能力)：衡量模型在回答问题或生成文本时如何运用其内嵌的知识。

Cognitive Reasoning (推理能力)：评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。

Yield of Specialized Outputs (特殊生成能力）：测试模型在生成特定类型或风格的文本（例如诗歌、代码或专业文章）时的效能。

目前，LucyEval已发布如下两项测试集。

大规模多任务中文理解能力测试 Massive Multitask Chinese Understanding

2023 年 4 月 25 日，针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状，甲骨易AI研究院率先发布（首发）了一套大规模多任务中文大模型理解能力测试。

测试所包含的题目来自医疗、法律、心理学和教育四个科目的 11900 个问题，包含单项选择和多项选择题，目的旨在使测试过程中模型更接近人类考试的方式，覆盖学科面广，专业知识难度高，适合用来评估大模型的综合理解能力。

中文大模型多学科生成能力自动化评测基准 Chinese Generation Evaluation

目前领域内的评测大多都只针对模型的中文理解能力，通过选择题由模型直接生成答案，或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度，这些评测基准就存在很大的局限性。

在率先发布国内首个中文大模型理解能力测试后，甲骨易AI研究院于 8 月 9 日正式发布一套自动测评中文大模型多学科生成能力的评测基准。

基准包含 11000 道题目，涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的 55 个子科目。题型分为名词解释、简答题和计算题三种类型。同时，甲骨易AI研究院还设计了一套复合打分方式Gscore，使评分过程更加合理、科学。

甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试，包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。

本次受测中文大语言模型

从所有模型在六大类科目的平均分来看，GPT- 4 取得最高分41.12，比最低分32. 28 高出8. 84 分。

本次受测中文大语言模型平均得分

未来，甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标，持续研究适应其发展的测试集，期待与同样关注大语言模型发展的业界同仁携手共建。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
Jamba官网体验入口最新高性能开源AI语言模型下载使用地址

Jamba是一款基于SSM-Transformer混合架构的开放语言模型，提供顶级的质量和性能表现。它融合了Transformer和SSM架构的优势，在推理基准测试中表现出色，同时在长上下文场景下提供3倍的吞吐量提升。作为基础模型，Jamba旨在供开发者微调、训练并构建定制化解决方案。

Jamba
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条

今日大家都在搜的词：

热文

3 天
7天

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

今日大家都在搜的词：

热文

站长商机