首页 > 业界 > 关键词  > AI数据集最新资讯  > 正文

研究发现大型 AI 数据集包含虐待儿童图像:该数据集已用于构建流行的人工智能图像生成器,包括 Stable Diffusion

2023-12-21 09:51 · 稿源:站长之家

站长之家(ChinaZ.com) 12 月 21 日消息:根据斯坦福互联网观察站周三发布的一项新研究,流行的人工智能(AI)图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应,一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。

AI绘画Stable Diffusion

斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作,在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片,并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。

研究者们写道:「我们发现即使在 2023 年晚些时候,拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」

对此,LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应,宣布暂时撤下其数据集。LAION(代表非营利性的大规模人工智能开放网络)在一份声明中表示,「我们对非法内容采取零容忍政策,出于谨慎考虑,我们已撤下 LAION 数据集,以确保在重新发布之前它们是安全的」。

尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分,斯坦福团队表示,这可能影响 AI 工具生成有害输出的能力,并加剧对多次出现的实际受害者的先前虐待

研究人员表示,这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像,以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片,这让全世界的学校和执法部门感到震惊。直到最近,反虐待研究人员认为,一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。

斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B(包含超过 50 亿张图像文本对)构建训练集的人「删除它们或与中间商合作清理材料」另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失

斯坦福互联网观察站的首席技术官 David Thiel 表示:「合法平台可以停止提供它的下载,特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」

解决这个问题并不容易,可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用,Thiel 说。

将整个互联网的抓取数据集用于训练模型本应该限于研究操作,如果有的话,而不是在没有更多严格关注的情况下开源,」Thiel 在接受采访时说。

影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI,该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告,Stable Diffusion 的新版本已大大降低了生成有害内容的可能性,但去年推出的旧版本(Stability AI 表示它没有发布)仍然嵌入到其他应用程序和工具中,并且仍然是「生成明确图像的最受欢迎的模型」。

我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有,」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。

Stability AI 周三表示,它只托管过滤后的 Stable Diffusion 版本,并且「自从接管 Stable Diffusion 的独家开发以来,Stability AI 已采取积极措施来减少滥用风险」。

「这些过滤器阻止了不安全内容到达模型,」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除,我们可以帮助防止模型生成不安全内容。」

LAION 本周表示,它开发了「严格的过滤器」来检测和移除非法内容,然后才发布其数据集,并仍在努力改进这些过滤器。斯坦福报告承认,LAION 的开发者试图过滤掉「未成年」的露骨内容,但如果他们早些时候与儿童安全专家协商,可能会做得更好。

许多文本到图像生成器都以某种方式从 LAION 数据库派生而来,尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示,它没有使用 LAION,并对其模型进行了微调,以拒绝涉及未成年人的色情内容的请求。

Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型,但在 2022 年决定不公开发布,原因是对数据库进行的审计「发现了大量不当内容,包括色情图像、种族主义辱骂和有害的社会刻板印象」

LAION 的创始人是德国研究员和教师 Christoph Schuhmann,他今年早些时候表示,公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制

举报

  • 相关推荐
  • “人工智能强化学习可持续发展计划”发布,“教育普惠+标准共建”助力全球人工智能体系构建

    6月11日,第二届"一带一路"科技交流大会人工智能赋能可持续发展论坛在成都举行。腾讯联合多家机构发起"人工智能强化学习可持续发展计划",包含AI教育普惠和强化学习标准共建两大板块。该计划将面向全球高校开放《人工智能通识课》和《人工智能强化学习专业课》教学资源,助力构建高质量AI教学体系。同时,腾讯开悟人工智能全球公开赛颁奖典礼作为"学赛研产"联动的重要环节,吸引了19个国家和地区的近400所高校队伍参赛。2025年赛事将首次联合全国高校计算机能力挑战赛,围绕AI前沿产业真实场景设置赛题。腾讯还通过"青云计划"为全球顶尖AI人才提供就业机会,推动人才与产业高质量发展。北京大学等机构牵头制定了强化学习系统系列技术标准,填补了领域内标准空白。

  • 极光GPTBots成功完成“生成式人工智能服务登记”

    极光旗下AI开发平台GPTBots.ai近日在广东省网信部门完成生成式人工智能服务登记,成为合规经营的AI服务提供商。该平台严格遵循国家《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规要求,标志着其在技术创新、服务模式和数据安全等方面获得关键合规认可。此次登记体现了极光对法律法规的严格遵守和对安全责任的高度重视,为区域AI生态发展注入新活力。未来,极光将继续优化技术与服务,保障用户权益,推动生成式AI技术的健康规范发展。

  • 专业AI工具导航与人工智能学习平台AIbase.cn 连接现在与AI未来的智能桥梁

    AI技术正重塑各行各业,从语音助手到自动驾驶,从医疗诊断到金融分析,已从科幻变为现实。面对AI快速发展,许多人感到迷茫:如何跟上技术前沿?如何在AI浪潮中找到机遇?AIbase.cn应运而生,致力于成为连接现在与未来的智能桥梁。平台汇聚全球最新AI资讯、实用技术资源和前沿行业洞察,为新手、开发者和企业家提供一站式解决方案。核心服务体系包括:前沿资讯精选、精品AI工具库、系统化教程、商业化指南和开发者生态支持。通过专业内容与活跃社区,帮助用户在快速变化的AI领域保持敏锐洞察力,实现从概念到应用的跨越。AIbase.cn已成为数万AI从业者的首选平台,期待与您共同探索智能时代的无限可能。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 人工智能创新创业大赛进入关键评审阶段,前沿AI项目角逐决赛席位

    "智汇运河·智算未来"人工智能创新创业大赛进入关键阶段。经过全球征集筛选,50个代表AI前沿创新的项目脱颖而出,涵盖智能制造、智慧城市、生命健康、智慧物流四大"AI+"赛道。赛事聚焦技术突破性、模式创新性和产业落地潜力,旨在推动AI技术从实验室走向应用场景。杭州拱墅区通过大赛汇聚全球智慧,加速构建人工智能产业高地。7月6日决赛将展现顶尖项�

  • 寒武纪荣获2025人工智能领域金牛上市公司科创奖

    2025科创金牛奖获奖名单揭晓,寒武纪凭借在人工智能芯片领域的卓越表现,荣获人工智能领域金牛奖。该奖项由中国证券报打造,是中国资本市场最具影响力的奖项之一。寒武纪专注AI芯片研发,提供云边端一体化智能芯片产品和平台化基础系统软件,其通用型智能芯片产品技术壁垒高、应用场景广。2024年公司研发投入达10.72亿元,新增专利授权314项。此次获奖既是对其科技创新成果的肯定,也是对其推动AI技术产业化应用的认可。未来寒武纪将加速产品迭代升级,为我国人工智能产业发展筑牢技术根基。

  • 微算法科技(NASDAQ:MLGO)基于可解释的人工智能技术XAI,增强区块链网络威胁检测的决策能力

    微算科技(NASDAQ:MLGO)创新性地将可解释人工智能(XAI)技术应用于区块链网络安全领域,开发出智能威胁检测系统。该系统通过深度学习模型识别攻击模式,并利用可解释性模块清晰展示决策依据,显著提升了检测准确率和可信度。目前已成功应用于异常交易识别、恶意节点检测和智能合约审计等多个场景,帮助区块链网络实现更高效、透明的安全防护。该技术不仅提高了威胁检测能力,也为后续模型优化提供了依据,未来将在更广泛领域推动构建更安全的网络空间。

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 国内有哪些AI新闻网站?2025年最全人工智能资讯平台推荐

    本文介绍了国内优质AI新闻网站,帮助读者快速掌握人工智能领域最新动态。重点推荐了AIbase.cn、机器之心、量子位和AI工具集四个平台,分别从资讯全面性、技术深度、行业洞察和工具导航等角度分析其特色。文章指出,在AI技术快速迭代的背景下,专业AI新闻网站能提供更及时、深入的行业资讯,建议读者根据需求选择合适平台,建立日常阅读习惯,多元化获取信息,并积极参与社区讨论,以保持对行业趋势的敏锐度。

  • 倍孜网络CEO聂子尧主持虎啸盛典AI论坛并发布《2025中国数字营销行业人工智能应用趋势研究报告》

    本文聚焦AI营销创新,重点呈现了2025虎啸盛典上发布的《中国数字营销行业人工智能应用趋势研究报告》核心内容。报告指出AI营销正从效率工具向价值引擎跃迁,倍孜网络CEO聂子尧提出AI应释放人类潜能而非替代创造力。报告展示了三大趋势:1)技术融合:AIGC+元宇宙+Web3协同创新;2)行业重构:AI深度赋能金融、零售、快消领域;3)战略升级:数据资产化与算法进化。典型案例包括12306智能投放系统提升触达精准度,可口可乐"未来3000年"跨模态营销实现189万次用户互动。报告强调AI营销需警惕"幻觉效应",应通过"模法"建立可持续的智能营销生态。