研究发现大型 AI 数据集包含虐待儿童图像：该数据集已用于构建流行的人工智能图像生成器，包括 Stable Diffusion

2023-12-21 09:51 · 稿源：站长之家

站长之家(ChinaZ.com) 12 月 21 日消息:根据斯坦福互联网观察站周三发布的一项新研究，流行的人工智能（AI）图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应，一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。

AI绘画Stable Diffusion

斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作，在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片，并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。

研究者们写道：「我们发现即使在 2023 年晚些时候，拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」

对此，LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应，宣布暂时撤下其数据集。LAION（代表非营利性的大规模人工智能开放网络）在一份声明中表示，「我们对非法内容采取零容忍政策，出于谨慎考虑，我们已撤下 LAION 数据集，以确保在重新发布之前它们是安全的」。

尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分，斯坦福团队表示，这可能影响 AI 工具生成有害输出的能力，并加剧对多次出现的实际受害者的先前虐待。

研究人员表示，这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像，以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片，这让全世界的学校和执法部门感到震惊。直到最近，反虐待研究人员认为，一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。

斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B（包含超过 50 亿张图像文本对）构建训练集的人「删除它们或与中间商合作清理材料」。另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失。

斯坦福互联网观察站的首席技术官 David Thiel 表示：「合法平台可以停止提供它的下载，特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」

解决这个问题并不容易，可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用，Thiel 说。

「将整个互联网的抓取数据集用于训练模型本应该限于研究操作，如果有的话，而不是在没有更多严格关注的情况下开源，」Thiel 在接受采访时说。

影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI，该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告，Stable Diffusion 的新版本已大大降低了生成有害内容的可能性，但去年推出的旧版本（Stability AI 表示它没有发布）仍然嵌入到其他应用程序和工具中，并且仍然是「生成明确图像的最受欢迎的模型」。

「我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有，」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。

Stability AI 周三表示，它只托管过滤后的 Stable Diffusion 版本，并且「自从接管 Stable Diffusion 的独家开发以来，Stability AI 已采取积极措施来减少滥用风险」。

「这些过滤器阻止了不安全内容到达模型，」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除，我们可以帮助防止模型生成不安全内容。」

LAION 本周表示，它开发了「严格的过滤器」来检测和移除非法内容，然后才发布其数据集，并仍在努力改进这些过滤器。斯坦福报告承认，LAION 的开发者试图过滤掉「未成年」的露骨内容，但如果他们早些时候与儿童安全专家协商，可能会做得更好。

许多文本到图像生成器都以某种方式从 LAION 数据库派生而来，尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示，它没有使用 LAION，并对其模型进行了微调，以拒绝涉及未成年人的色情内容的请求。

Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型，但在 2022 年决定不公开发布，原因是对数据库进行的审计「发现了大量不当内容，包括色情图像、种族主义辱骂和有害的社会刻板印象」。

LAION 的创始人是德国研究员和教师 Christoph Schuhmann，他今年早些时候表示，公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制。

（举报）

相关推荐

关键词：

TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

TabTab是一款全链路AI数据分析助手，核心功能包括多源数据连接（支持文档、数据库、电商平台等）、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互，降低分析门槛，让非技术人员也能快速完成客户洞察、销售业绩等分析，显著提升效率。产品定位中立，致力于构建多元化AI效率提升生态。

数据驱动效率提升智能体
一图读懂FusionXpark™随身智能体开发平台

文章搜索核心标签内容检索
算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

10月24日，超聚变公司发布FusionXpark™智能体开发平台，实现AI算力从云端下沉至桌面设备。该平台搭载GB10架构，提供1PFLOPS本地算力，支持200B参数模型推理，助力开发者在边缘端运行高参数模型。发布会展示了政务、金融、工业等五大行业的30类“超级员工”智能体应用，通过私有化部署保障数据安全。专家指出，这一创新将推动AI普惠化，重塑产业生态。

AI原生计算智能体开发平台 FusionXpark
进博会“全勤生”三星的AI全景图：AI Home中国首秀

三星在进博会上首次展出AI+Home智能家庭解决方案，通过Bespoke AI、Vision AI和Galaxy AI三大模块，实现全场景智慧生活。AI正从"会语言"向"会行动"演进，软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势，打破端侧AI的性能、算力与存储"不可能三角"，构建起覆盖手机、电视、家电的生态闭环。未来，AI将全面接管生活，让科技真正服务于人。

端侧AI AI Home
科杰科技&甲子光年：2025中国Data&AI数据基础设施白皮书

当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进，供应链加速本土化，AI从前沿技术跃升为核心生产力。麦肯锡研究显示，生成式AI有望为全球经济贡献7万亿美元，中国预计占2万亿美元，接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求，企业需构建新一代数据基础设施，实现数据生产、治理与AI应用的动态融合，突破"数据烟囱"，支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升，成为智能社会的核心引擎。

地缘政治人工智能经济增长
重磅预告：全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析，覆盖数据获取、建模到可视化全流程。用户可用自然语言交互，系统自主规划任务并输出可维护结果，支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手，旨在降低分析门槛，助力企业高效挖掘数据价值，适用于数据分析师、营销人员等各类用户。

AI数据分析 Multi-Agent系统数据可视化
数据智能体 TabTabAI 正式上线，零门槛上手，让 “数据分析” 人人可用

AI数据智能体TabTabAI正式上线，以“零门槛交互+全流程自主处理”为核心优势，打破数据分析技术壁垒。该工具通过自然语言对话，支持多源数据采集、智能处理、深度洞察与可视化，让普通职场人无需编程背景即可完成复杂分析任务。其多智能体协同架构与自动化能力，覆盖从数据收集到决策建议的全链路，助力用户将原始数据高效转化为精准决策依据，真正实现“人人都是数据分析师”。

数据分析数据驱动 AI数据智能体
AI搜索时代，品牌流量被“隐形”?AIBase让你精准掌控品牌AI搜索监控

随着用户习惯向豆包、文心一言等AI助手提问，品牌竞争已从传统搜索引擎转向AI生成答案的“主动提及名单”。AI时代品牌面临三大痛点：内容难被AI推荐、品牌定位被AI误读、竞品提及率远超自身。AIBase推出品牌监控服务，通过全平台覆盖、精准解析品牌画像、GEO指数量化三大核心能力，构建“AI认知透视体系”，帮助品牌实现从“添加-分析-优化”的闭环管理，让复杂AI推荐逻辑变得清晰可操作，成为抢占用户心智的关键工具。
荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济

今日大家都在搜的词：

热文

3 天
7天

研究发现大型 AI 数据集包含虐待儿童图像：该数据集已用于构建流行的人工智能图像生成器，包括 Stable Diffusion

TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

一图读懂FusionXpark™随身智能体开发平台

算力无界，AI无距！超聚变发布FusionXpark™随身智能体开发平台

进博会“全勤生”三星的AI全景图：AI Home中国首秀

科杰科技&甲子光年：2025中国Data&AI数据基础设施白皮书

重磅预告：全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

数据智能体 TabTabAI 正式上线，零门槛上手，让 “数据分析” 人人可用

AI搜索时代，品牌流量被“隐形”?AIBase让你精准掌控品牌AI搜索监控

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

俞敏洪发文确认孙东旭离职：保持着良好的沟通

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机