谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

2023-11-09 11:10 · 稿源：站长之家

站长之家（ChinaZ.com）11月9日消息:最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。

研究发现，由于预训练语料包含大量公开文本，而评估基准建立在这些信息之上，大型模型在实际应用中可能产生潜在的危害。

论文地址:https://arxiv.org/pdf/2311.01964.pdf

在多项模拟测试中，研究人员发现当大型模型的预训练数据中包含某个评测基准的数据时，其在该基准中表现更好。然而，在其他常识和数学基准中，模型的表现下降。甚至在没有泄露数据的任务中，模型的表现也受到影响并下降。

研究团队分析了这种训练数据泄露情况可能性，指出大型模型的预训练语料和基准测试数据都采用公开文本，导致数据重叠在所难免。当前的模型评估方式难以严格检查异常数值提升，而大型模型的预训练语料被视为核心机密，外界无法评估，造成模型意外“投毒”。

为规避这一问题，研究团队提出了一些建议。首先，建议大型模型应采用多个基准测试，尽管在实际情况中完全避免数据重叠很难。其次，对基准测试维护人员，应提供基准测试数据来源，分析数据被污染的风险。然而，研究团队也承认本次研究存在一定局限，未对不同程度的数据泄露进行系统性测试。

该研究的发现对评估大型模型在各种基准测试中的表现提出了重要警示，并为未来的研究提供了有价值的参考。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的学者联合完成，其中包括两位数据挖掘领域的专家:文继荣和韩家炜。文继荣教授分别是中国人民大学高瓴人工智能学院院长和中国人民大学信息学院院长，而韩家炜教授是伊利诺伊大学香槟分校计算机系教授，同时也是美国计算机协会院士和IEEE院士。

这一研究呼吁关注大型模型的基准评估问题，强调在评估过程中需要更多的透明度和多样性。对于未来的研究，需要进一步探讨不同程度的数据泄露对模型性能的影响，并在预训练中引入数据泄露进行更深入的模拟测试。

（举报）

相关推荐
大家在看

关键词：

大模型

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
微软紧急撤回最先进的AI大模型：居然忘了测试了

Meta发布超级彪悍的大语言模型Llama3之后，微软也很快推出了自己的新一代WizardLM28x22B，号称迄今最强大，完全超越Claude3OpusSonnet、GPT-4等竞品开源，但是马上又把它撤回去了。没有任何征兆，微软就删除了WizardLM2大模型的相关文件、代码一直没有任何公开解释。大模型幻觉产生的原因有很多，训练数据、预训练和对齐阶段、推理阶段都会出现缺陷。

大语言模型 WizardLM2 微软
阿里刚开源32B大模型，我们立马测试了“弱智吧”

阿里的通义千问，终于拼齐了1.5系列的最后一块拼图——正式开源Qwen1.5-32B。直接来看“成绩单”。GQA的引入就降低了注意力计算的数量，从加速了推理时间。

阿里大模型 Qwen1.5
中国首个音乐SOTA模型「天工音乐大模型」今日公测

2024年4月17日，在「天工」大模型一周年之际，昆仑万维重磅宣布，「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天，第一版天工大模型正式对外发布上线，一年来我们不断迭代模型，迭代应用产品，模型和应用都越做越好，以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力，并将在未来加入AI视频功能，对标“超级应用”，成为人工智能时代的“超级大模型”。在“实现通用人工智能，让每个人更好地塑造和表达自我”的公司使命驱动下，昆仑万维将始终致力于AI技术与产品的创新开拓，不断提高AI产品的用户体验，与用户、研究人员、开发者们携手，共创国产大模型的未来。

天工3.0 大模型公测
荐挑战拯救痴心“舔狗”，我和大模型都尽力了

大模型化身为“痴情男大”，等待人类玩家的拯救。一款名为“拯救舔狗”的大模型原生小游戏出现了。大模型在学习这个世界，也在创造一个AINative的世界，无论是大模型原生小游戏是功能越来越全的大模型对话，都在展现世界内容的互动变革，随着尺度规律的不断发展，下一步会怎样?在这次技术交流日上，商汤最后放出了一段文生视频，一起来看看。

大模型
荐巨头狂卷代码大模型

让AI写代码正在越来越流行。今天蚂蚁集团智能研发平台CodeFuse推出了“图生代码”技术，这一技术集成在CodeFuse上，可将网页、App等设计图一键转化成前端代码。

大模型
破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

【新智元导读】大语言模型的「逆转诅咒」，被解开了。来自MetaFAIR的研究人员推出了反向训练大法，让模型从反方向上学到了事实之间的逻辑，终于改进了这个困扰人们已久的问题。36年前的预言1988年，Fodor和Pylyshyn在《认知》刊物上发了一篇关于思维的系统性的文章。

Meta 大模型
荐从小数据到大模型，“AI+”何以落地？

南京师范大学附属中学宿迁分校成立智慧教学小组，并以周为单位，对教师的智慧课堂应用数据进行复盘;中国人民大学附属中学丰台学校的教师们，已经习惯于课后通过课堂智能反馈系统总结自己的上课情况;而通过集体备课平台，北京师范大学广州实验学校的教师们可以随时随地进行线上交流互动和资源共享……在全国各地的中小学，AI技术正与教育不断融合。变化背后，有�

大模型
阿里云宣布全方位支持Llama 3训练推理帮助开发者构建自己的大模型

阿里云百炼大模型服务平台近期宣布了一项重要的支持计划，即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务，旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。通过结合阿里云强大的云计算资源和Llama3模型的先进性能，企业和开发者将能够开发出更加智能和高效的AI应用，加速AI技术的创

阿里云百炼大模型 AI头条
大模型时代，AI人才也是各家争夺的焦点

AI人才争夺战，正式打响!在当今这个由技术驱动的时代，人工智能已成为推动未来创新的关键力量。随着AI技术的飞速发展，一场无声的战争正在硅谷激烈上演——AI人才争夺战。随着全球人才流动的趋势变化，各国也在积极调整策略，以期在未来的AI竞赛中占据有利位置。

人工智能 AI技术 AI人才争夺战
讯飞星火大模型V3.5升级推出长文本、长图文、长语音大模型

科大讯飞今日发布重大更新，讯飞星火大模型V3.5升级，不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场，并同步推出了星火智能体平台。这一系列创新举措，旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择，共同构建讯飞星火大模型生态。

科大讯飞讯飞星火大模型V3.5 多情感超拟人合成技术

RAGFlow:开源的基于深度文档理解的RAG（检索增强生成）引擎

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，基于深度文档理解，提供流线型的RAG工作流程，适用于各种规模的企业。它结合了大型语言模型（LLM）提供真实的问答能力，支持从各种复杂格式数据中引用确凿的引文。

自然语言处理机器学习信息检索

EmojiTell:使用表情组合翻译器，让沟通更有趣且富有表现力。

EmojiTell是一个创新的在线服务，可以将文本翻译成表情组合，增加沟通的趣味性和表现力。它由一支对表情符号充满热情的开发者和设计师团队开发，旨在通过表情符号的力量，让信息传递更加生动和个性化。

表情符号翻译沟通

Perplexica:一个开源的AI驱动搜索引擎，提供深入网络的答案。

Perplexica是一个开源的AI驱动搜索引擎，它不仅搜索网络，还理解您的问题。它使用先进的机器学习算法，如相似性搜索和嵌入，来优化结果，并提供引用来源的清晰答案。使用SearxNG保持最新和完全开源，确保您始终获得最新信息，同时不损害您的隐私。

搜索引擎机器学习人工智能

FaceChain:深度学习工具链，用于生成你的数字孪生体。

FaceChain是一个深度学习工具链，由ModelScope提供支持，能够通过至少1张肖像照片生成你的数字孪生体，并在不同设置中生成个人肖像（支持多种风格）。用户可以通过FaceChain的Python脚本、熟悉的Gradio界面或sd webui来训练数字孪生模型并生成照片。FaceChain的主要优点包括其生成个性化肖像的能力，支持多种风格，以及易于使用的界面。

深度学习数字孪生个性化

Huggingface 镜像站:一个公益项目，致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

HuggingFace镜像站是一个非盈利性项目，旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程，减少因网络问题导致的中断，它极大地提高了开发者的工作效率。该镜像站支持多种下载方式，包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。

AI 机器学习数据集

WebLlama:构建能够根据指令浏览网页并和您对话的强大代理

WebLlama是一个基于Meta Llama 3构建的代理，专门为网页导航和对话进行了微调。它旨在构建有效的以人为中心的代理，帮助用户浏览网页，而不是取代用户。该模型在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能。

网页导航对话代理机器学习

Infra Copilot:利用机器学习自动生成基础设施代码，提高开发效率。

GitHub Copilot for Infrastructure as Code（简称Infra Copilot）是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文，允许专业人员使用自然语言表达需求，并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码（IaC）的开发过程，还确保了跨环境和项目的一致性，加速了新团队成员的上手和学习过程，显著提高了工作效率并节约了时间。

基础设施即代码自动化机器学习

LLaVA++:扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

今日大家都在搜的词：

热文

站长商机