首页 > 业界 > 关键词  > 正文

智源发布多模态模型中文评测基准CMMU

2024-02-01 09:59 · 稿源:站长之家

站长之家(ChinaZ.com) 2月1日 消息:智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),旨在为中文多模态模型领域提供一个全面、中立的评测基准。

该评测基准目前发布了 CMMU v0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中,250道题目为小学题目,1697道为初中题目,1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。

微信截图_20240201100018.png

通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。

CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。

项目地址:https://github.com/FlagOpen/CMMU

举报

  • 相关推荐
  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • 荣耀年度旗舰上新,火山引擎助力“YOYO助理”多模态智慧再升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,支持图文、语音、视频输入及多样化内容输出,结合火山引擎的豆包大模型技术,提供联网问答、智能识图、创意修图、出行规划等场景服务,实现“有问必答、答则精准”的智慧体验,成为用户贴身的“万能管家”。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 玄武云通过DCMM三级认证 数据管理能力获国家级权威认可

    玄武云科技(02392.HK)近日通过国家数据管理能力成熟度(DCMM)稳健级(三级)认证。该认证依据国家标准GB/T36073-2018,标志着公司在数据战略、治理、安全、质量等八大能力域达到国家权威标准。公司建立了覆盖数据标准管理、安全管理、质量管理的完整体系,将数据管理融入产品研发与业务流程,为云通信与AI业务发展奠定坚实基础。未来将持续深化数据能力建设,探索数据要素创新应用,助力行业数字化转型。

  • 小米17 Pro妙享背屏对话翻译上线:正屏说中文 背屏即时翻译

    小米13 Pro系列近日上线妙享背屏对话翻译功能,实测对着手机说中文即可实时显示译文,效率很高。背屏还新增大头贴模式,支持拍摄动态照片,并加入多款动态壁纸。游戏方面新增植物合成与雪人推箱子两款休闲游戏,搭配复古风格保护壳,操作简洁有趣。作为核心亮点,背屏采用与主屏同源的龙晶玻璃,支持LTPO自适应刷新率,横向覆盖后摄模组,辨识度拉满。小米总裁卢伟冰表示,该系列大胆创新获用户积极反馈,下一代旗舰将继续沿用背屏设计并加大研发投入。

  • 按摩店初中文凭小伙娶美国女博士:相爱能克服一切困难

    近日,一位名为吴彦举的河南农村小伙与美国博士妻子Amy Thames(中文名:吴爱美)的跨国爱情故事在网络上引发热议。这对夫妻结婚已20年,用他们的亲身经历诠释了“有爱就能冲破一切隔阂和枷锁”的深刻内涵。 吴彦举出生于河南禹州农村,家境贫寒,童年时与牛马同住一屋,生活条件极为艰苦。他自幼渴望通过学习改变命运,成绩优异却因家庭经济困难被迫辍学,早早承�

  • “大模型应用”新风口:“无人测试”趋势,CIO/CTO如何应对

    当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈,而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试,可提升测试效率300%、降低成本30%,并将产品发布周期从"月"压缩至"周"。这不仅是技术升级,更是重构IT成本结构、实现降本增效的战略支点,助力IT部门从成本中心转型为价值创造中心。

  • AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布

    本期AI日报聚焦多项技术突破:豆包推出全自动有声剧系统,实现98%角色识别准确率;Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成;Soul发布90分钟无中断播客生成模型;360推出全球首款L2-L4全栈智能平台;IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面,移动端AI用户突破7亿,豆包领跑原生应用;PayPal与OpenAI合作使ChatGPT集成支付功能;谷歌推出AI营销工具Pomelli,可基于URL自动生成营销内容。

  • 按摩店初中文凭小伙娶美国女博士:英雄救美拉进彼此距离

    ​近日,河南按摩师吴彦举与美国博士生Amy Thames(中文名吴爱美)的跨国婚姻故事引发广泛关注。这段始于新疆按摩店的感情,历经20年风雨,跨越阶层、学历与国界,书写了一段动人佳话。 吴彦举1981年出生于河南禹州农村,因家庭贫困初中便辍学。18岁时,他在采石场打工右眼被碎石击伤,视力严重受损。2004年,他在新疆一家按摩店工作,月收入不足千元。而吴爱美是美�

  • 只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

    ​这几天,OCR这个词,绝对是整个AI圈最火的词。因为DeepSeek-OCR,甚至让OCR这个赛道文艺复兴,又给直接带火了。 整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。 然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL

今日大家都在搜的词: