首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

谨防大模型基准评估陷阱!测试集乱入预训练,模型变傻

2023-11-09 11:10 · 稿源:站长之家

站长之家(ChinaZ.com)11月9日 消息:最新研究警告,大型模型在基准评估中可能面临潜在危害,原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。

研究发现,由于预训练语料包含大量公开文本,而评估基准建立在这些信息之上,大型模型在实际应用中可能产生潜在的危害。

image.png

论文地址:https://arxiv.org/pdf/2311.01964.pdf

在多项模拟测试中,研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时,其在该基准中表现更好。然而,在其他常识和数学基准中,模型的表现下降。甚至在没有泄露数据的任务中,模型的表现也受到影响并下降。

研究团队分析了这种训练数据泄露情况可能性,指出大型模型的预训练语料和基准测试数据都采用公开文本,导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升,而大型模型的预训练语料被视为核心机密,外界无法评估,造成模型意外“投毒”。

为规避这一问题,研究团队提出了一些建议。首先,建议大型模型应采用多个基准测试,尽管在实际情况中完全避免数据重叠很难。其次,对基准测试维护人员,应提供基准测试数据来源,分析数据被污染的风险。然而,研究团队也承认本次研究存在一定局限,未对不同程度的数据泄露进行系统性测试。

该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示,并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成,其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长,而韩家炜教授是伊利诺伊大学香槟分校计算机系教授,同时也是美国计算机协会院士和IEEE院士。

这一研究呼吁关注大型模型的基准评估问题,强调在评估过程中需要更多的透明度和多样性。对于未来的研究,需要进一步探讨不同程度的数据泄露对模型性能的影响,并在预训练中引入数据泄露进行更深入的模拟测试。

举报

  • 相关推荐
  • 突破大模型对齐瓶颈,北大团队携手昇腾打通产业应用通路

    北大杨耀东团队研发Align-Anything多模态对齐框架,以RLHF为核心解决传统反馈信息有限问题,覆盖文本、图像、音频等全模态数据。该框架集成专用评估工具Eval-Anything,已在昇腾平台实现智慧医疗、网络安全等领域规模化落地。通过构建安全治理体系,显著提升大模型安全水位,同时保持通用能力。团队联合推出课程培养人才,深化产学研协同,为多模态大模型发展提供关键技术支撑。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • AI日报:阿里千问APP公测;Veo 3.1上线多图参考;超级小爱AI大模型“随心修图”上线

    本期AI日报聚焦多项技术突破:阿里千问APP公测,基于Qwen3模型对标ChatGPT;谷歌Veo 3.1支持三图融合生成8秒视频;小米推出"随心修图"功能与7B多模态模型Miloco;谷歌Flow集成Nano Banana模型实现智能抠图;多模态AI工具DeepEyesV2可执行代码与网络搜索;NotebookLM升级支持图像导入检索;JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温,产品迭代加速。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 小米超级小爱AI大模型推出随心修图功能

    小米宣布超级小爱AI大模型推出随心修图功能,用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式:在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求:超级小爱需v7.8.50及以上,相册编辑功能需v2.1及以上,相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级,支持全局多模态交互和自然语音搜索,提升使用体验。

  • 大模型+反诈+算力三重突破 腾讯云三项成果闪耀金融科技应用场景大赛

    10月30日,2025金融街论坛年会金融科技大会公布“金融科技应用场景大赛”终评结果。腾讯云“金融反电诈治理方案”与“基于TCS的AI异构算力管理平台”凭借技术创新性与场景落地能力,从全国89家机构的280个项目中脱颖而出,双双荣获“十佳应用奖”。腾讯混元大模型信贷助手方案获“探索实践奖”。三大方案在金融风控、算力基座及大模型应用三个关键领域展现突出优势,获专家团高度认可。大赛自2021年启动,已成为金融科技领域极具影响力的赛事平台。

今日大家都在搜的词: