首页 > 业界 > 关键词  > 生成式AI最新资讯  > 正文

生成式 AI 安全标准发布,覆盖训练数据和生成内容

2024-06-02 09:37 · 稿源:站长之家

划重点:

⭐ 中国发布《生成式 AI 安全基本要求》,涵盖训练数据、生成内容等

⭐ 标准要求细化了训练数据、生成内容和模型安全要求

⭐ 中国连续出台安全管理条例,展示对创新技术重视,保障人工智能应用安全

站长之家(ChinaZ.com)6月2日 消息:中国网络安全标准化技术委员会官网发布了《网络安全技术 生成式人工智能服务安全基本要求》征求意见稿。该标准细化了对生成式人工智能服务的安全要求,包括训练数据安全、生成内容安全和模型安全要求。其中,针对训练数据,要求对数据来源进行管理和核验,提高数据来源的多样性,并规定了使用开源、自采和商业训练数据的相关规定。

image.png

对于生成内容,要求进行内容过滤和知识产权管理,特别是对包含个人信息的训练数据,提出了使用授权和管理渠道等要求。在模型安全要求方面,标准要求在模型训练、输出、监测、更新、升级以及软硬件环境方面都有相应的安全措施和管理要求。

这一标准的发布展示了中国对生成式人工智能领域安全管理的重视程度,为该领域的健康发展保驾护航。同时,这也是中国连续出台安全管理条例,为人工智能应用场景的落地和应用安全提供了保障。整个标准的发布显示了对创新技术的重视,同时也保证了人工智能应用的安全性。

《生成式 AI 安全基本要求》内容如下:

image.png

数据来源安全

对服务提供者的要求如下。

a)采集来源管理:

1)面向特定数据来源进行采集前,应对该来源数据进行安全评估,数据内容中含违法不良信息超过5%的,不应采集该来源数据;

2)面向特定数据来源进行采集后,应对所采集的该来源数据进行核验,含违法不良信息情况超过5%的,不应使用该来源数据进行训练。

b)不同来源训练数据搭配:

1)应提高训练数据来源的多样性,对每一种语言的训练数据,如中文、英文等,以及每一种类型的训练数据,如文本、图片、音频、视频等,均应有多个训练数据来源;

2)如需使用境外来源训练数据,应与境内来源训练数据进行合理搭配。

c)训练数据来源可追溯:

1)使用开源训练数据时,应具有该数据来源的开源许可协议或相关授权文件;

2)使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;不可采集的网页数据,或个人已拒绝授权采集的个人信息等。

3)使用商业训练数据时:

应有具备法律效力的交易合同、合作协议等;

交易方或合作方不能提供数据来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该训练数据;

应对交易方或合作方所提供训练数据、承诺、材料进行审核。

4)将使用者输入信息当作训练数据时,应具有使用者授权记录。

数据内容安全

a)训练数据内容过滤:对于每一种类型的训练数据,如文本、图片、音频、视频等,应在将数据用于训练前,对全部训练数据进行过滤,过滤方法包括但不限于关键词、分类模型、人工抽检等,去除数据中的违法不良信息。

b)知识产权:

1)应有训练数据知识产权管理策略,并明确负责人;

2)数据用于训练前,应对数据中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关数据进行训练;

注:训练数据中包含文学、艺术、科学作品的,需要重点识别训练数据以及生成内容中著作权侵权问题。

3)应建立针对知识产权问题的投诉举报渠道;

4)应在用户服务协议中,向使用者告知使用生成内容的知识产权相关风险,并与使用者约定相

关责任与义务;

5)应及时根据国家政策以及第三方投诉情况更新知识产权相关策略;

6)宜具备以下知识产权措施:

公开训练数据中涉及知识产权部分的摘要信息;在投诉举报渠道中支持第三方就训练数据使用情况以及相关知识产权情况进行查询。

c)个人信息方面:

1)在使用包含个人信息的训练数据前,应取得对应个人同意或者符合法律、行政法规规定的其他情形;

2)在使用包含敏感个人信息的训练数据前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。

模型安全要求

对服务提供者的要求如下。

a)模型训练方面:

1)在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一;

注:模型生成内容是指模型直接输出的、未经其他处理的原生内容。

2)应定期对所使用的开发框架、代码等进行安全审计,关注开源框架安全及漏洞相关问题,识别和修复安全漏洞。

b)模型输出方面:

1)生成内容准确性方面,应采取技术措施提高生成内容响应使用者输入意图的能力,提高生成内容中数据及表述与科学常识及主流认知的符合程度,减少其中的错误内容;

2)生成内容可靠性方面,应采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用;

3)问题拒答方面,对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;

4)图片、视频等生成内容标识方面,应满足国家相关规定以及标准文件要求。

c)模型监测方面:

1)应对模型输入内容持续监测,防范恶意输入攻击,例如注入攻击、后门攻击、数据窃取、对抗攻击等;

2)应建立常态化监测测评手段以及模型应急管理措施,对监测测评发现的提供服务过程中的安全问题,及时处置并通过针对性的指令微调、强化学习等方式优化模型。

d)模型更新、升级方面:

1)应制定在模型更新、升级时的安全管理策略;

2)应形成管理机制,在模型重要更新、升级后,再次自行组织安全评估。

e)软硬件环境方面:

1)模型训练、推理所采用的计算系统方面:

应评估系统所采用芯片、软件、工具、算力等方面的供应链安全,侧重评估供应持续性、稳定性等方面;

所采用芯片宜支持基于硬件的安全启动、可信启动流程及安全性验证。

2)应将模型训练环境与推理环境隔离,避免数据泄露、不当访问等安全事件,隔离方式包括物理隔离与逻辑隔离。

上面只是部分内容,整个安全标准书是非常详细的,有兴趣的可以去官网查看全部内容。

我国也是全球为数不多在生成式人工智能领域连续出台安全管理条例的国家,一方面展示了国家对创新变革技术的重视程度,另外保证了生成式人工智能的场景化落地和应用安全。

举报

  • 相关推荐
  • 大家在看
  • 生成式AI爆发时代,决策AI“不香了”?

    2022年12月,ChatGPT3.5的发布引发了全球范围内对大模型的广泛关注,2023年2月国内高校率先发布产品,2023年6月开始国内涌现出众多的通用大模型和垂类大模型,目前国内大模型产业呈现出“百模大战”的竞争格局。大模型热引发了全球范围内对生成式AI的广泛关注,在生成式AI大爆发的时代,决策式AI是否会被替代?是否所有的行业都值得用生成式AI再做一遍?生成式AI在垂类行业中的技术落地是否会出现“水土不服”?决策式AI和生成式AI的商业落地场景能为下游客户创造哪些商业价值?这些问题的答案,需要从两类技术的本质出发,结合行业特性、市场需求和未来趋势进行综合考量。相反我们更有可能看到的是它们之间的融合发展,决策式AI的分析能力和生成式AI的创造性将相互补充,共同构建更为复杂和高级的AI系统,推动社会向更加智能化的方向发展。

  • 拒绝假内容!安可小助手——AI生成内容检测技巧

    在当今这个日新月异、信息爆炸的时代,人工智能所产生的信息已深深渗透到我们日常生活的方方面面。随之来的挑战不容忽视——如何实现对这些信息内容的精确且高效的真伪鉴定,已成为一个迫切需要解决的课题。通过使用当前先进的技术,我们能显著提升辨别信息真伪的能力,确保后去的信息并非来自AI生成的内容,为我们的日常生活带来更多的安全防护。

  • 生成式AI+HR,Moka让招聘效率再提升

    来源:至顶网据统计,53%的HR平均每天要看100份以上的简历,到了校招季一天可能要看1000份,如果按照30秒看一份简历的速度,也会消耗大量精力。Moka合伙人兼CTO刘洪泽是HR行业的一位赋能者,同时也是一位有着3000场面试经验的面试官。打造世界级HR产品,赢得100,000家组织和员工的认可,是Moka一直以来的愿景,Moka正一步一步,脚踏实地地不断向前迈进。

  • Akamai将生成式AI嵌入零信任安平台

    6月12日消息,Akamai近日宣布已将生成式AI集成至零信任安全平台AkamaiGuardicorePlatform,主要表现为Guardicore助手和AILabeling两个功能的上线。据Akamai大中华区解决方案技术经理马俊介绍,GuardicoreAI聊天机器人类似网络安全客户顾问,内嵌Akamai微分段和零信任知识。AILabeling的标签功能具备为工作负载的行为和网络连通特征打标签能力,可以快速为客户标注Windows域控、典型应用场景等。

  • 中国生成式AI专利申请量球第一!远超美国、韩国、日本

    快科技7月3日消息,据央视新闻报道,世界知识产权组织日前发布《生成式人工智能专利态势报告》。根据报告,2014年至2023年,中国发明人申请的生成式人工智能专利数量最多,远超美国、韩国、日本和印度等国。2014年至2023年间,中国的生成式人工智能发明超过3.8万件,是排名第二的美国的6倍。报告显示,生成式人工智能已遍及生命科学、制造、交通、安全和电信等行业,图像和视频数据在生成式人工智能专利中占主导地位,其次是文本和语音/音乐,分子、基因和蛋白质数据的生成式人工智能专利增长迅速。根据中国信通院公布的《全球数字经济白?

  • 中国AI大模型数量占球超1/3!生成式AI专利申请量第一

    快科技7月8日消息,根据中国信息通信研究院近日发布的《全球数字经济白皮书》,中国在全球人工智能大模型的占比已超过1/3,达到36%,仅次于美国的44%。在全球AI企业数量上,中国以15%的占比紧随美国之后,位列第二。同时,中国的AI独角兽企业数量也达到了71家,显示出中国AI企业的创新活力和市场潜力。据世界知识产权组织发布的《生成式人工智能专利态势报告》,2014年

  • 中国生成式AI专利38,000个,是美国6倍、超过球总和!

    7月4日,联合国在官网发布了一份深度调查报告:2014—2023年期间,中国在生成式AI申请的专利数量为38210个,是排名第二美国的6倍领先全球。全球申请生成式AI专利前10位分别是:腾讯、平安保险、百度、中国科学院、IBM、阿里巴巴、三星电子、Alphabet、字节跳动和微软。同时这里有广阔的应用空间、场景化落地,为企业提供了研发动力和商业氛围。

  • AIGC短剧卷起来了!没有演员AI生成 快手抖音领衔竞速

    7月13日,国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》上线快手,可灵大模型提供深度技术支持。抖音和博纳合作的首部AIGC科幻短剧《三星堆:未来启示录》上线,抖音视频大模型即梦提供技术支持。我们还看不到AIGC短剧的终局在哪儿,但大家努力向前跑总是没错的。

  • 上海一医院用AI自动生成病历 效率提升30倍

    快科技6月30日消息,对于眼科医生而言,工作节奏快、强度高,除了要进行日常手术和诊疗工作外,还需要处理大量繁琐却相似的病史书写工作。为此,上海市第一人民医院引入蚂蚁大模型能力进行提高病史书写效率的创新应用。通过关键信息的给定、语音输入等多种形式结合自动生成病历,简化入院记录的填写过程,将原本需要5到10分钟的工作缩减到了15至20秒,显著节省了医生 敲键盘”的时间。后续,蚂蚁还会进一步基于大语言模型进行病历质控,帮助医生快速定位病历书写错误,不断提高病历生成的准确率。据了解,这是支付宝4月宣布开放该解决方案

  • 社会反诈青年在行动”宣传活动启动 快手可灵发布网首条AI生成反诈短片

    6月28日,公安部刑事侦查局、国家反诈中心在京举办“全社会反诈青年在行动”宣传活动启动仪式。公安部直属机关党委、宣传局、刑事侦查局、国家反诈中心等相关单位负责同志及青年党员和快手等20余家互联网公司反诈青年志愿者共计500余人参加活动。图为活动启动仪式现场公安部刑事侦查局负责人在致辞中指出,当前电信网络诈骗犯罪形势依然严峻复杂,发案量高、损失

  • 免费AI在线变声器:创新AI技术,轻松改变声音。

    免费AI在线变声器是一种利用人工智能技术,允许用户上传语音或输入文本,并将其转换成不同声音的工具。它与传统变声器不同,提供更逼真和准确的效果,支持性别声音转换,适用于角色扮演、游戏、内容创作等多种场景。

  • color4bg.js:动态生成炫酷多彩的网页背景

    color4bg.js 是一个使用 WebGL 和 JavaScript 生成动态、抽象且视觉震撼的背景图像的 JavaScript 库。它允许用户自定义多达六种颜色,以生成背景图案,支持动态动画效果,并可通过种子值确保每次生成相同的图案,便于集成到网页设计中。

  • MemFree:智能搜索工具,快速获取互联网及本地数据

    MemFree是一个创新的搜索工具,它允许用户快速从互联网、书签、笔记和文档中获取准确的答案。它通过先进的算法索引和搜索技术,帮助用户节省时间,提高工作效率。

  • Inrō:Instagram自动化营销助手

    Inrō是一个AI驱动的营销自动化工具,专为Instagram设计,帮助企业通过直接消息(DM)提升用户参与度和转化率。它通过分析用户互动历史和上下文,自动组织受众并个性化消息内容。Inrō还提供了与现有信息系统的集成,以及自动化的潜在客户获取和跟踪功能。产品背景信息包括其母公司EDGAR SAS是Meta批准的供应商,符合Instagram的社区准则、隐私政策和服务条款,并且提供数据安全和加密传输。

  • Gan.AI Video Recorder:录制无限个性化视频,提高会议效率和交易成功率。

    Gan.AI Video Recorder 是一款在线视频录制工具,它允许用户快速录制屏幕和摄像头,并通过个性化功能来增强视频的吸引力和效果。产品的主要优点包括无限视频录制、个性化字幕和缩略图、动态网站背景滚动以及定制化登录页面等。这些功能使得Gan.AI Video Recorder 成为提高工作效率和交易成功率的有效工具。

  • Superjoin:自动将实时数据导入Google Sheets的AI工具。

    Superjoin是一个集成了AI技术的插件,允许用户无需编写任何代码即可将实时数据从他们喜爱的工具中导入到Google Sheets。它为RevOps团队提供了无需编码和开发人员即可操作的解决方案,支持一键连接无限数据源,自动刷新数据,并支持双向同步。

  • Prime Intellect:AI开发规模化的民主化平台

    Prime Intellect是一个致力于AI开发规模化民主化的平台,提供全球计算资源的发现、模型训练以及共同拥有智能创新的能力。它通过分布式训练跨集群,使得用户能够训练最前沿的模型,并且共同拥有由此产生的开放AI创新成果,包括语言模型和科学突破。

  • Zed:高性能、多人协作代码编辑器

    Zed是由Atom和Tree-sitter的创造者开发的高性能、多人协作代码编辑器,开源且集成了AI代码生成功能。它利用多核心CPU和GPU,实现即时启动、快速文件加载和响应键盘输入。Zed支持GitHub Copilot,并通过内置助手面板与模型进行对话式交互,以生成或重构代码。

  • AuraFlow:开源的基于流的文本到图像生成模型

    AuraFlow v0.1是一个完全开源的、基于流的文本到图像生成模型,它在GenEval上达到了最先进的结果。目前模型处于beta阶段,正在不断改进中,社区反馈至关重要。感谢两位工程师@cloneofsimo和@isidentical将此项目变为现实,以及为该项目奠定基础的研究人员。

  • 墨狐AI:短篇小说写作助手

    墨狐AI是一个专为短篇小说创作者设计的在线写作助手,它通过提供创意大纲、续写故事、生成剧情树和剧本创作等功能,帮助作者激发灵感,提高写作效率。产品背景信息显示,墨狐AI旨在解决创作者在创作过程中遇到的难题,如灵感枯竭或故事发展困难。目前,墨狐AI的定位是辅助工具,详情可访问官网查看更多介绍。

  • LLaVA-NeXT:大型多模态模型,处理多图像、视频和3D数据。

    LLaVA-NeXT是一个大型多模态模型,它通过统一的交错数据格式处理多图像、视频、3D和单图像数据,展示了在不同视觉数据模态上的联合训练能力。该模型在多图像基准测试中取得了领先的结果,并在不同场景中通过适当的数据混合提高了之前单独任务的性能或保持了性能。

  • 老鱼简历:在线制作简历,简单高效。

    老鱼简历是一个在线简历制作平台,提供多种简历模板,支持AI生成简历,帮助用户快速制作出专业且个性化的简历。用户可以根据自己的需求选择不同的模板,并通过简单的在线编辑完成简历的制作,支持下载为PDF或PNG格式,满足不同场景的求职需求。

  • Enchanted:与私有自托管语言模型对话的iOS/macOS应用

    Enchanted是一个开源的、兼容Ollama的macOS/iOS/visionOS应用,它允许用户与私有自托管的语言模型如Llama 2、Mistral、Vicuna等进行对话。它基本上是一个连接到私有模型的ChatGPT应用界面。Enchanted的目标是提供一个产品,允许在iOS生态系统(macOS、iOS、Watch、Vision Pro)的所有设备上提供无过滤、安全、私密和多模态的体验。

  • Logo Galleria:在线AI Logo制作,快速生成个性化标志。

    Logo Galleria是一个在线AI Logo制作平台,利用人工智能技术帮助用户快速生成个性化的标志设计。它通过用户输入的行业、风格等参数,提供定制化的标志设计方案,满足不同用户的设计需求。该平台的主要优点是操作简便、设计效率高,可广泛应用于品牌建设、产品包装等场景。

  • Afforai.com:AI驱动的参考文献管理助手

    Afforai是一个AI驱动的参考文献管理助手,旨在帮助研究人员管理、注释、引用论文,并以AI的可靠性进行文献综述。它提供了一个全新的研究材料存储方式,使用户能够专注于真正重要的事情。Afforai支持多种文档格式,包括DOI、URL、PDF等,并具有多种搜索模式,可以连接数百篇论文进行总结、比较和翻译。此外,Afforai还提供数据引用,使用户能够方便地核实信息来源,确保研究的可靠性。

  • Rodel Agent:集成聊天、文本转图像、文本转语音和机器翻译的桌面应用

    Rodel Agent 是一款集成了聊天、文本到图像、文本到语音以及机器翻译功能的Windows桌面应用程序。它支持当前主流的AI服务,为用户提供了卓越的桌面AI体验。该产品的主要优点包括强大的集成功能、用户友好的界面以及对主流AI服务的支持,能够显著提高用户的工作效率和创造力。

  • DictionaryByGPT4:一本由GPT4生成的英语单词书,覆盖8000+单词

    DictionaryByGPT4是一个由GPT4模型生成的英语单词学习工具,它通过分析超过8000个单词,为每个单词提供词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事等全方位信息,帮助用户深入理解单词的来源、使用场景以及记忆方法。该产品特别适合需要提升英语词汇量和理解力的学习者。

  • gpt-frontend-code-gen:前端页面生成神器,提升开发效率

    gpt-frontend-code-gen 是一个基于 React 和 Vite 构建的前端项目,结合 Koa 后端服务,实现前端页面生成并预览的功能。它使用 GPT-4 模型,支持 Chakra UI 和 ShadcnUI 组件生成,允许开发者通过对话形式持续迭代和修改页面,直到达到满意的效果。

  • OpenDiLoCo:开源实现分布式低通信AI模型训练

    OpenDiLoCo是一个开源框架,用于实现和扩展DeepMind的分布式低通信(DiLoCo)方法,支持全球分布式AI模型训练。它通过提供可扩展的、去中心化的框架,使得在资源分散的地区也能高效地进行AI模型的训练,这对于推动AI技术的普及和创新具有重要意义。

  • SmartCrawl:将任何网站转化为AI驱动的API。

    SmartCrawl是一个创新的在线工具,它允许用户将任何网站转化为API,通过AI技术实现数据的自动化抓取和处理。这项技术对于需要从网站获取数据的开发者和企业来说非常重要,因为它简化了数据集成的过程,提高了效率。产品目前处于Beta测试阶段,用户可以通过加入等待名单来获取试用机会。

今日大家都在搜的词: