首页 > 业界 > 关键词  > AI数据集最新资讯  > 正文

研究发现大型 AI 数据集包含虐待儿童图像:该数据集已用于构建流行的人工智能图像生成器,包括 Stable Diffusion

2023-12-21 09:51 · 稿源:站长之家

站长之家(ChinaZ.com) 12 月 21 日消息:根据斯坦福互联网观察站周三发布的一项新研究,流行的人工智能(AI)图像生成器的基础数据库中隐藏着数千张儿童性虐待图片(CSAM)。作为对这一研究的回应,一些最大和最常用的图像数据库的运营商关闭了对它们的访问权限。

AI绘画Stable Diffusion

斯坦福大学的这个监督团队与加拿大儿童保护中心以及其他反虐待慈善机构合作,在巨大的 AI 数据库 LAION 中发现了超过 3200 张涉嫌儿童性虐待的图片,并向执法部门报告了原始照片链接。其中 1000 多张涉嫌图片被确认为儿童性虐待材料。

研究者们写道:「我们发现即使在 2023 年晚些时候,拥有 LAION-5B 数据集也意味着拥有数千张非法图片。」

对此,LAION 在斯坦福互联网观察站报告发布前夕做出了迅速反应,宣布暂时撤下其数据集。LAION(代表非营利性的大规模人工智能开放网络)在一份声明中表示,「我们对非法内容采取零容忍政策,出于谨慎考虑,我们已撤下 LAION 数据集,以确保在重新发布之前它们是安全的」。

尽管这些图片只占 LAION 约 58 亿张图片指数的一小部分,斯坦福团队表示,这可能影响 AI 工具生成有害输出的能力,并加剧对多次出现的实际受害者的先前虐待

研究人员表示,这些图片还使 AI 系统更容易生成虚假儿童的逼真和明确的图像,以及将社交媒体上完全穿着衣服的真实青少年的照片转换为裸体照片,这让全世界的学校和执法部门感到震惊。直到最近,反虐待研究人员认为,一些未经检查的 AI 工具产生虐待儿童的图像的唯一方式是通过结合两类在线图片——成人色情和对孩子的无害照片。

斯坦福互联网观察站呼吁采取更为激进的措施。其中之一是要求所有基于 LAION-5B(包含超过 50 亿张图像文本对)构建训练集的人「删除它们或与中间商合作清理材料」另一个措施是实际上让去年推出的 Stable Diffusion 的旧版本从互联网上最黑暗的角落消失

斯坦福互联网观察站的首席技术官 David Thiel 表示:「合法平台可以停止提供它的下载,特别是如果它们经常用于生成虐待图像并且没有阻止它们的保障措施。」

解决这个问题并不容易,可以追溯到许多生成性 AI 项目「实际上被匆忙地推向市场」并且由于该领域竞争激烈而广泛可用,Thiel 说。

将整个互联网的抓取数据集用于训练模型本应该限于研究操作,如果有的话,而不是在没有更多严格关注的情况下开源,」Thiel 在接受采访时说。

影响 LAION 数据集开发的一个主要 LAION 用户是总部位于伦敦的初创公司 Stability AI,该公司制作了 Stable Diffusion 文本到图像模型。根据斯坦福报告,Stable Diffusion 的新版本已大大降低了生成有害内容的可能性,但去年推出的旧版本(Stability AI 表示它没有发布)仍然嵌入到其他应用程序和工具中,并且仍然是「生成明确图像的最受欢迎的模型」。

我们无法撤回这一模型。这个模型已经在许多人的本地机器上被人们所拥有,」加拿大儿童保护中心信息技术主任 Lloyd Richardson 说。该中心运营着加拿大网络性剥削举报热线。

Stability AI 周三表示,它只托管过滤后的 Stable Diffusion 版本,并且「自从接管 Stable Diffusion 的独家开发以来,Stability AI 已采取积极措施来减少滥用风险」。

「这些过滤器阻止了不安全内容到达模型,」该公司在一份准备好的声明中说。「通过在内容到达模型之前将其移除,我们可以帮助防止模型生成不安全内容。」

LAION 本周表示,它开发了「严格的过滤器」来检测和移除非法内容,然后才发布其数据集,并仍在努力改进这些过滤器。斯坦福报告承认,LAION 的开发者试图过滤掉「未成年」的露骨内容,但如果他们早些时候与儿童安全专家协商,可能会做得更好。

许多文本到图像生成器都以某种方式从 LAION 数据库派生而来,尽管并不总是清楚是哪些生成器。Dall-E 和 ChatGPT 的开发商 OpenAI 表示,它没有使用 LAION,并对其模型进行了微调,以拒绝涉及未成年人的色情内容的请求。

Google 基于 LAION 数据集构建了其文本到图像 Imagen 模型,但在 2022 年决定不公开发布,原因是对数据库进行的审计「发现了大量不当内容,包括色情图像、种族主义辱骂和有害的社会刻板印象」

LAION 的创始人是德国研究员和教师 Christoph Schuhmann,他今年早些时候表示,公开提供如此庞大的视觉数据库的部分原因是为了确保 AI 发展的未来不受少数强大公司的控制

举报

  • 相关推荐
  • 腾讯云大数据升级Data+AI能力体系,构建AI-Ready的数据智能平台

    9月17日,腾讯云在数字生态大会上宣布升级大数据产品矩阵Data+AI能力体系,覆盖底层架构、数据平台、数据应用全流程,助力企业应对数据治理、多模态融合与智能化应用等挑战。通过云原生架构、Data+AI一体化和Agent增强,推出TCLake智能数据湖、流湖引擎和企业级搜索ES,提升数据处理效率与智能化水平。WeData平台升级为端到端一体化Data+AI平台,打通数据接入、治理、建模、训练到推理全链路。引入AI+Agent能力,通过Data Agent和ChatBI等创新实践,将智能能力融入数据使用各环节,助力企业释放数据价值,形成差异化AI竞争力。

  • AI眼镜的痛,Meta也治不了

    对于全球科技从业者而言,Meta Connect大会是一年一度的重要时刻。 不少人早早守在电脑前,想知道扎克伯格此次会带来哪些前沿技术产品,更对会上即将亮相的新款AI眼镜充满关注。 事实上,AI眼镜这类消费电子产品,在过去一年里已快速从“小众科技产品”走进大众视野,但看似火热的市场背后,AI眼镜当下的发展却陷入了明显瓶颈。 此前,国内AI眼镜市场曾掀起“百镜大

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • Data+AI协同创新,华为云稳居中国大数据平台市场榜首

    IDC最新报告显示,2024年中国大数据平台市场全面向AI转型,华为云以26.9%的份额连续五年位居第一。报告指出,企业正推动数据与AI统一管理,华为云通过DataArts智能底座实现四层架构转型,加速数据到知识的转化。金融行业成为重点应用场景,华为云在金融云市场持续领先。9月将举办全球混合云数智融合高峰论坛,深入探讨数据与AI融合推动行业智能化升级。

  • 三星于 IFA 2025 推出 Vision AI 伴侣,开启 AI 驱动的显示新时代

    三星电子在IFA2025展会上推出Vision+AI伴侣,通过生成式AI技术赋能电视与显示器产品。该技术整合升级版Bixby语音助手,实现自然对话交互,提供个性化内容推荐和场景化智能服务。Vision+AI伴侣突破传统电视功能边界,支持多设备智能联动,覆盖影视、艺术、美食等多领域内容交互。该方案将于2023年9月下旬通过软件更新在韩国、北美及部分欧洲市场首发,后续逐步推广至全球。

  • 小米开启澎湃OS 3 Beta版最新招募:支持小米14、K70等机型

    小米澎湃OS 3 Beta版于9月24日启动招募,覆盖MIX Fold 4、MIX Flip、小米14 Ultra、14 Pro及钛金属版(卫星通讯)、小米14、Redmi K70系列四款机型和小米平板6S Pro 12.4共12款设备。招募采用分批推送机制,每机型设两批次,首批满员后启动第二批,入选用户优先获得更新。正式版将于10月15日推送,逐步扩大覆盖。该系统基于自研底层内核,通过深度优化微架构流水线,精准识别CPU空转,配合一体化调频技术,整体任务执行效率提升19%,带来更流畅体验。此次招募既为用户提供抢先体验机会,也通过反馈助力系统优化,强化小米生态竞争力。

  • 卖家精灵火热亮相武汉电博会,以大数据+AI驱动跨境电商新增长!

    2025年第十届武汉国际电子商务暨数字贸易博览会于9月19-21日成功举办,主题为“链接全球·数创未来”,展览面积达2万平方米。展会汇聚亚马逊、Wildberries等国际电商平台,通过展览、论坛等形式展示电子商务与数字贸易领域的前沿技术与创新应用。卖家精灵作为亚马逊官方服务商亮相,其“AI市场洞察”功能成为焦点,可基于大数据与人工智能快速生成市场分析报告,帮助卖家高效决策。现场人气高涨,日均接待咨询超百人次,多位卖家表现出强烈购买意向。未来,卖家精灵将持续投入AI研发,助力跨境卖家把握全球商机。10月20日,该平台还将亮相深圳GGE出海博览会,举办跨境电商AI实战论坛。

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • 宜享花依托AI与大数据技术,推动消费金融合规创新与服务提质

    宜人智科旗下品牌宜享花以人工智能与大数据技术为核心驱动力,构建覆盖全链路的一体化智能服务体系。平台在严格合规框架下,深度融合金融机构与多元场景资源,为消费者提供精准、安全的金融支持,并通过科技创新持续优化风控能力与服务体验。宜享花高度重视合规经营,建立覆盖业务全流程的个人信息保护机制,自主研发“Hawkeye反欺诈管理系统”有效识别并拦截欺诈行为。同时,平台发布《消费者权益保护2024年度报告》,建立六大消保评审维度,强化事前审查与专项检查机制。通过AI技术打造高效、智能的客户服务体系,累计提供智能客服超490万次,智能客服分流率达52%。未来,宜享花将持续深化科技应用,筑牢智能风控防线,完善消费者权益保护,为经济高质量发展注入科技金融新动能。

今日大家都在搜的词: