首页 > 业界 > 关键词  > AI数据集最新资讯  > 正文

研究发现大型 AI 数据集包含虐待儿童图像:该数据集已用于构建流行的人工智能图像生成器,包括 Stable Diffusion

2023-12-21 09:51 · 稿源:站长之家

站长之家(ChinaZ.com) 12 月 21 日消息:根据斯坦福互联网观察站周三发布的一项新研究,流行的人工智能(AI)图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应,一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。

AI绘画Stable Diffusion

斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作,在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片,并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。

研究者们写道:「我们发现即使在 2023 年晚些时候,拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」

对此,LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应,宣布暂时撤下其数据集。LAION(代表非营利性的大规模人工智能开放网络)在一份声明中表示,「我们对非法内容采取零容忍政策,出于谨慎考虑,我们已撤下 LAION 数据集,以确保在重新发布之前它们是安全的」。

尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分,斯坦福团队表示,这可能影响 AI 工具生成有害输出的能力,并加剧对多次出现的实际受害者的先前虐待

研究人员表示,这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像,以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片,这让全世界的学校和执法部门感到震惊。直到最近,反虐待研究人员认为,一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。

斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B(包含超过 50 亿张图像文本对)构建训练集的人「删除它们或与中间商合作清理材料」另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失

斯坦福互联网观察站的首席技术官 David Thiel 表示:「合法平台可以停止提供它的下载,特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」

解决这个问题并不容易,可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用,Thiel 说。

将整个互联网的抓取数据集用于训练模型本应该限于研究操作,如果有的话,而不是在没有更多严格关注的情况下开源,」Thiel 在接受采访时说。

影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI,该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告,Stable Diffusion 的新版本已大大降低了生成有害内容的可能性,但去年推出的旧版本(Stability AI 表示它没有发布)仍然嵌入到其他应用程序和工具中,并且仍然是「生成明确图像的最受欢迎的模型」。

我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有,」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。

Stability AI 周三表示,它只托管过滤后的 Stable Diffusion 版本,并且「自从接管 Stable Diffusion 的独家开发以来,Stability AI 已采取积极措施来减少滥用风险」。

「这些过滤器阻止了不安全内容到达模型,」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除,我们可以帮助防止模型生成不安全内容。」

LAION 本周表示,它开发了「严格的过滤器」来检测和移除非法内容,然后才发布其数据集,并仍在努力改进这些过滤器。斯坦福报告承认,LAION 的开发者试图过滤掉「未成年」的露骨内容,但如果他们早些时候与儿童安全专家协商,可能会做得更好。

许多文本到图像生成器都以某种方式从 LAION 数据库派生而来,尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示,它没有使用 LAION,并对其模型进行了微调,以拒绝涉及未成年人的色情内容的请求。

Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型,但在 2022 年决定不公开发布,原因是对数据库进行的审计「发现了大量不当内容,包括色情图像、种族主义辱骂和有害的社会刻板印象」

LAION 的创始人是德国研究员和教师 Christoph Schuhmann,他今年早些时候表示,公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制

举报

  • 相关推荐
  • 极光GPTBots成功完成“生成式人工智能服务登记”

    极光旗下AI开发平台GPTBots.ai近日在广东省网信部门完成生成式人工智能服务登记,成为合规经营的AI服务提供商。该平台严格遵循国家《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规要求,标志着其在技术创新、服务模式和数据安全等方面获得关键合规认可。此次登记体现了极光对法律法规的严格遵守和对安全责任的高度重视,为区域AI生态发展注入新活力。未来,极光将继续优化技术与服务,保障用户权益,推动生成式AI技术的健康规范发展。

  • “人工智能强化学习可持续发展计划”发布,“教育普惠+标准共建”助力全球人工智能体系构建

    6月11日,第二届"一带一路"科技交流大会人工智能赋能可持续发展论坛在成都举行。腾讯联合多家机构发起"人工智能强化学习可持续发展计划",包含AI教育普惠和强化学习标准共建两大板块。该计划将面向全球高校开放《人工智能通识课》和《人工智能强化学习专业课》教学资源,助力构建高质量AI教学体系。同时,腾讯开悟人工智能全球公开赛颁奖典礼作为"学赛研产"联动的重要环节,吸引了19个国家和地区的近400所高校队伍参赛。2025年赛事将首次联合全国高校计算机能力挑战赛,围绕AI前沿产业真实场景设置赛题。腾讯还通过"青云计划"为全球顶尖AI人才提供就业机会,推动人才与产业高质量发展。北京大学等机构牵头制定了强化学习系统系列技术标准,填补了领域内标准空白。

  • 姜钧凯:人工智能已经驱动硬件体系大变革

    爱国者集团CEO姜钧凯在2025中国人工智能产业领军论坛上指出,人工智能正推动硬件体系大变革。他回顾30年科技发展规律:每十年软硬件互相促进一次飞跃,从1993年电脑硬件、2003年数码产品到2013年智能穿戴,再到2023年后AI大模型兴起。姜钧凯透露,科学家正在研发基于金刚石芯片和碳基存储的新一代硬件系统,其中同位素电池技术尤为突破——采用碳14同位素衰变原理,可实现百年免充电,且安全无辐射。爱国者已布局强人工智能软硬件体系,包括居家养老系统、数据清洗平台及以金刚石芯片为核心的硬件研发。姜钧凯预测2056年将迎来超级人工智能时代,人类只需从事创造性活动。论坛上,爱国者还展示了针对自闭症儿童的水晶疗愈等创新应用。多位科学家高度评价爱国者对中国科技发展的贡献。(宋洁凡)

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 师出有名:华城瑞讯首创人工智能平台 共建数智企服生态

    华城瑞讯创始人高瑞先拜访中国中小企业协会,双方围绕小微企业数智化服务、企服咨询师行业标准建设等议题展开交流。协会成立于2006年,致力于服务中小企业发展。华城瑞讯自主研发的"22°智·企服"Agents系统获高度认可,其融资服务模块可将融资周期缩短60%,成本降低50%。公司计划推出企服咨询师培训计划,建立OMO服务模式,整合银行、律所等专业资源。目前"22°智·融资"Agent已促成近20个千万级融资项目落地,覆盖智能制造、数字科技等领域。未来将共建数智企服新生态,在全国重点城市增设服务空间,助力小微企业在数字经济浪潮中实现跨越式发展。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 聚焦“AI+智造”“AI+创品” 三诺同日亮相全球人工智能终端展、文博会两大展

    5月22日,2025全球人工智能终端展暨第六届深圳国际人工智能展、第二十一届文博会同期开幕。深圳企业三诺集团携多款创新产品亮相两大展会,重点展示"AI+智造"和"AI+创品"领域成果,包括AI情感陪伴宠物、智能音频眼镜等十余款产品,展现其在AI领域的创新实力。文博会上,三诺展示了融合科技与文化的"声音+"系列产品,如沉浸式蓝牙音箱等,彰显"文化+科技"硬核实力。两大展会共吸引全球15个国家和地区的300余家企业参展,三诺的创新设计和技术成果获得广泛关注,展现了其在智能制造和AI应用场景的前沿探索。

  • “AI赋智 端云共生”中兴通讯亮相2025全球人工智能终端展

    2025年5月22-24日,中兴通讯终端业务以"AI赋能,端云共生"为主题亮相第六届深圳国际人工智能展。重点展示了多款AI终端产品:努比亚Z70S Ultra摄影师版搭载第五代35mm定制镜头,支持多模型协同;二合一云PAD PRO具备平板/电脑双系统;中兴自由屏实现多场景智能切换。基于"AI for All"战略,中兴构建了覆盖智能驾驶、家庭娱乐等五大场景的智慧生态,通过星云大模型�

  • 微算法科技(NASDAQ:MLGO)基于可解释的人工智能技术XAI,增强区块链网络威胁检测的决策能力

    微算科技(NASDAQ:MLGO)创新性地将可解释人工智能(XAI)技术应用于区块链网络安全领域,开发出智能威胁检测系统。该系统通过深度学习模型识别攻击模式,并利用可解释性模块清晰展示决策依据,显著提升了检测准确率和可信度。目前已成功应用于异常交易识别、恶意节点检测和智能合约审计等多个场景,帮助区块链网络实现更高效、透明的安全防护。该技术不仅提高了威胁检测能力,也为后续模型优化提供了依据,未来将在更广泛领域推动构建更安全的网络空间。

  • 广电视听人工智能联合共建实验室成立,共筑智慧媒体发展新引擎

    5月22日,国家广播电视总局广播电视规划院、贵州多彩新媒体股份有限公司与腾讯云等联合成立"广电视听人工智能联合共建实验室",旨在推动AI技术与广电视听产业深度融合。实验室汇聚全国十余家省级广电新媒体单位及头部科技企业,聚焦机器学习、自然语言处理、计算机视觉等前沿技术领域,致力于技术突破、人才培养和产业升级。该实验室将作为"智慧广电"建设的重要创新平台,通过跨领域资源整合,构建开放创新生态,推动从内容生产到终端服务的全链条智能化升级,助力广电行业构建更高效、更智能的传播生态。