首页 > 传媒 > 关键词  > 正文

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval,让智能有迹可循!

2023-08-31 13:51 · 稿源: 站长之家用户

夕小瑶科技说 分享

Lucy,是距今 320 万年最早的人类祖先,也是被输入某种“物质”后大脑开发到高的超智能人类,能感知宇宙万物,拥有人类所有知识。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物质“。

随着大语言模型不断调优,大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同,如何最快速地判断机器是否能正确理解人类的知识和语言,成为我们共同关注的问题。

由此,甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval,能够通过对模型各方面能力的客观测试,找到模型的不足,帮助设计者和工程师更加准确地调整、训练模型,助力大模型不断迈向更智能的未来。

Lucy的每一个字母背后都代表了不同的意义,包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。

  • L - Linguistic Fundamentals: 基础理解能力

  • U - Utilization of Knowledge: 知识运用能力

  • C - Cognitive Reasoning: 推理能力

  • Y - Yield of Specialized Outputs: 特殊生成能力


"Lucy" 包含以下含义:

Linguistic Fundamentals (基础理解能力) :描述模型对基础语法、词汇和句子结构的理解程度。

Utilization of Knowledge (知识运用能力):衡量模型在回答问题或生成文本时如何运用其内嵌的知识。

Cognitive Reasoning (推理能力):评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。

Yield of Specialized Outputs (特殊生成能力):测试模型在生成特定类型或风格的文本(例如诗歌、代码或专业文章)时的效能。

目前,LucyEval已发布如下两项测试集。

大规模多任务中文理解能力测试 Massive Multitask Chinese Understanding

2023 年 4 月 25 日,针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状,甲骨易AI研究院率先发布(首 发)了一套大规模多任务中文大模型理解能力测试。

测试所包含的题目来自医疗、法律、心理学和教育四个科目的 11900 个问题,包含单项选择和多项选择题,目的旨在使测试过程中模型更接近人类考试的方式,覆盖学科面广,专业知识难度高,适合用来评估大模型的综合理解能力。

中文大模型多学科生成能力自动化评测基准 Chinese Generation Evaluation

目前领域内的评测大多都只针对模型的中文理解能力,通过选择题由模型直接生成答案,或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度,这些评测基准就存在很大的局限性。

在率先发布国内首 个中文大模型理解能力测试后,甲骨易AI研究院于 8 月 9 日正式发布一套自动测评中文大模型多学科生成能力的评测基准。

基准包含 11000 道题目,涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的 55 个子科目。题型分为名词解释、简答题和计算题三种类型。同时,甲骨易AI研究院还设计了一套复合打分方式Gscore,使评分过程更加合理、科学。

甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试,包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。

本次受测中文大语言模型

从所有模型在六大类科目的平均分来看,GPT- 4 取得最 高分41.12,比最 低分32. 28 高出8. 84 分。

本次受测中文大语言模型平均得分

未来,甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标,持续研究适应其发展的测试集,期待与同样关注大语言模型发展的业界同仁携手共建。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看

今日大家都在搜的词: