首页 > 业界 > 关键词  > 生成式AI最新资讯  > 正文

生成式 AI 安全标准发布,覆盖训练数据和生成内容

2024-06-02 09:37 · 稿源:站长之家

划重点:

⭐ 中国发布《生成式 AI 安全基本要求》,涵盖训练数据、生成内容等

⭐ 标准要求细化了训练数据、生成内容和模型安全要求

⭐ 中国连续出台安全管理条例,展示对创新技术重视,保障人工智能应用安全

站长之家(ChinaZ.com)6月2日 消息:中国网络安全标准化技术委员会官网发布了《网络安全技术 生成式人工智能服务安全基本要求》征求意见稿。该标准细化了对生成式人工智能服务的安全要求,包括训练数据安全、生成内容安全和模型安全要求。其中,针对训练数据,要求对数据来源进行管理和核验,提高数据来源的多样性,并规定了使用开源、自采和商业训练数据的相关规定。

image.png

对于生成内容,要求进行内容过滤和知识产权管理,特别是对包含个人信息的训练数据,提出了使用授权和管理渠道等要求。在模型安全要求方面,标准要求在模型训练、输出、监测、更新、升级以及软硬件环境方面都有相应的安全措施和管理要求。

这一标准的发布展示了中国对生成式人工智能领域安全管理的重视程度,为该领域的健康发展保驾护航。同时,这也是中国连续出台安全管理条例,为人工智能应用场景的落地和应用安全提供了保障。整个标准的发布显示了对创新技术的重视,同时也保证了人工智能应用的安全性。

《生成式 AI 安全基本要求》内容如下:

image.png

数据来源安全

对服务提供者的要求如下。

a)采集来源管理:

1)面向特定数据来源进行采集前,应对该来源数据进行安全评估,数据内容中含违法不良信息超过5%的,不应采集该来源数据;

2)面向特定数据来源进行采集后,应对所采集的该来源数据进行核验,含违法不良信息情况超过5%的,不应使用该来源数据进行训练。

b)不同来源训练数据搭配:

1)应提高训练数据来源的多样性,对每一种语言的训练数据,如中文、英文等,以及每一种类型的训练数据,如文本、图片、音频、视频等,均应有多个训练数据来源;

2)如需使用境外来源训练数据,应与境内来源训练数据进行合理搭配。

c)训练数据来源可追溯:

1)使用开源训练数据时,应具有该数据来源的开源许可协议或相关授权文件;

2)使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;不可采集的网页数据,或个人已拒绝授权采集的个人信息等。

3)使用商业训练数据时:

应有具备法律效力的交易合同、合作协议等;

交易方或合作方不能提供数据来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该训练数据;

应对交易方或合作方所提供训练数据、承诺、材料进行审核。

4)将使用者输入信息当作训练数据时,应具有使用者授权记录。

数据内容安全

a)训练数据内容过滤:对于每一种类型的训练数据,如文本、图片、音频、视频等,应在将数据用于训练前,对全部训练数据进行过滤,过滤方法包括但不限于关键词、分类模型、人工抽检等,去除数据中的违法不良信息。

b)知识产权:

1)应有训练数据知识产权管理策略,并明确负责人;

2)数据用于训练前,应对数据中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关数据进行训练;

注:训练数据中包含文学、艺术、科学作品的,需要重点识别训练数据以及生成内容中著作权侵权问题。

3)应建立针对知识产权问题的投诉举报渠道;

4)应在用户服务协议中,向使用者告知使用生成内容的知识产权相关风险,并与使用者约定相

关责任与义务;

5)应及时根据国家政策以及第三方投诉情况更新知识产权相关策略;

6)宜具备以下知识产权措施:

公开训练数据中涉及知识产权部分的摘要信息;在投诉举报渠道中支持第三方就训练数据使用情况以及相关知识产权情况进行查询。

c)个人信息方面:

1)在使用包含个人信息的训练数据前,应取得对应个人同意或者符合法律、行政法规规定的其他情形;

2)在使用包含敏感个人信息的训练数据前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。

模型安全要求

对服务提供者的要求如下。

a)模型训练方面:

1)在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一;

注:模型生成内容是指模型直接输出的、未经其他处理的原生内容。

2)应定期对所使用的开发框架、代码等进行安全审计,关注开源框架安全及漏洞相关问题,识别和修复安全漏洞。

b)模型输出方面:

1)生成内容准确性方面,应采取技术措施提高生成内容响应使用者输入意图的能力,提高生成内容中数据及表述与科学常识及主流认知的符合程度,减少其中的错误内容;

2)生成内容可靠性方面,应采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用;

3)问题拒答方面,对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;

4)图片、视频等生成内容标识方面,应满足国家相关规定以及标准文件要求。

c)模型监测方面:

1)应对模型输入内容持续监测,防范恶意输入攻击,例如注入攻击、后门攻击、数据窃取、对抗攻击等;

2)应建立常态化监测测评手段以及模型应急管理措施,对监测测评发现的提供服务过程中的安全问题,及时处置并通过针对性的指令微调、强化学习等方式优化模型。

d)模型更新、升级方面:

1)应制定在模型更新、升级时的安全管理策略;

2)应形成管理机制,在模型重要更新、升级后,再次自行组织安全评估。

e)软硬件环境方面:

1)模型训练、推理所采用的计算系统方面:

应评估系统所采用芯片、软件、工具、算力等方面的供应链安全,侧重评估供应持续性、稳定性等方面;

所采用芯片宜支持基于硬件的安全启动、可信启动流程及安全性验证。

2)应将模型训练环境与推理环境隔离,避免数据泄露、不当访问等安全事件,隔离方式包括物理隔离与逻辑隔离。

上面只是部分内容,整个安全标准书是非常详细的,有兴趣的可以去官网查看全部内容。

我国也是全球为数不多在生成式人工智能领域连续出台安全管理条例的国家,一方面展示了国家对创新变革技术的重视程度,另外保证了生成式人工智能的场景化落地和应用安全。

举报

  • 相关推荐
  • AI搜索可见性监控:品牌在生成式搜索时代的生存新法则

    AI搜索正颠覆传统SEO:58.5%的谷歌搜索已是零点击,用户看完AI摘要即离开。ChatGPT日处理超100亿查询,预计2030年流量将超谷歌。品牌需监控AI平台推荐情况,传统工具无法追踪豆包、通义千问等国产AI。建议建立监控体系:测试核心问题曝光率,每周追踪排名变化,持续优化内容。数据显示71%美国人用AI辅助购物决策,流量正加速从谷歌转向AI。生存法则很简单:看不见的,等于不存在。

  • 什么是GEO优化?AI生成式引擎优化平台推荐

    在数字化浪潮席卷的当下,搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词,而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示,超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。 什么是GEO优化? GEO,全称为生成式引擎优化,是

  • 什么是AI生成式引擎优化GEO?GEO与传统SEO的核心区别

    ​GEO(生成式引擎优化)是AI时代的流量新密码。随着生成式AI全面渗透信息获取场景,传统搜索引擎优化(SEO)正在被GEO所补充甚至部分取代。截至2025年,中国AI搜索用户规模已超6.5亿,文心一言、豆包等平台日均处理查询超过20亿次,用户已经从“翻页搜索”转向“对话获取答案”。 与传统SEO关注网页排名不同,GEO的核心目标是让品牌内容被AI优先引用和推荐。研究表明,72%�

  • 免费 AI 可见度检测器工具推荐:监控你品牌在生成式搜索中的曝光

    AI搜索时代,58.5%的Google搜索已成"零点击",ChatGPT日查询超10亿次。品牌若未出现在AI工具推荐中,将错失新流量入口。文章提出GEO(生成引擎优化)概念,强调需监控品牌在豆包、DeepSeek等AI平台的曝光排名,并推荐AIBase工具实现数据可视化。建议企业建立监测基线,聚焦高价值问题优化内容,形成"监控-优化-验证"闭环,抢占AI推荐流量先机。

  • AI生成式引擎优化选择哪个平台好?GEO优化工具推荐

    在数字化浪潮席卷的当下,品牌如何在AI平台中脱颖而出,成为众多企业关注的焦点。要理解这一点,我们首先需要认识一个新兴的营销策略——GEO。 GEO,全称为生成式引擎优化(Generative Engine Optimization),其核心目标是让品牌内容能够被AI搜尋工具理解、引用和推荐,最终被纳入AI生成的答案中。这与传统的SEO(搜索引擎优化)专注于在搜索结果列表中排名靠前有着本质的不同�

  • geo生成式引擎优化是什么?GEO优化原理与工具推荐

    在AI技术日新月异的今天,我们的信息获取方式正经历着一场革命。生成式引擎优化(Generative Engine Optimization,简称GEO)是AI搜索时代应运而生的新型优化策略,它被视为传统SEO在AI时代的进化版。 与传统SEO专注于提升网页在搜索引擎结果中的排名不同,GEO的核心目标是让品牌信息能够被DeepSeek、豆包、文心一言等主流AI平台识别、引用并直接推荐给用户。这种转变是因为搜索�

  • 革命来临:在生成式 AI 时代,SEO该怎么做

    生成式AI正重塑SEO规则:搜索入口从点击列表转向答案直呈,SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容(如FAQ、结构化数据),强化语义结构与权威性,监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性,实现从流量获取到答案源头的战略转型。

  • GEO生成式引擎优化怎么做?GEO监控工具推荐

    文章探讨产品在AI问答中曝光不足的问题,指出传统SEO思维已过时,需转向生成式引擎优化(GEO)。GEO核心是让AI模型在回答时主动引用品牌,而非仅追求搜索排名。作者通过AIBase工具监控发现,产品描述过于技术化导致AI无法理解,调整文案后曝光翻倍。预测到2026年,传统搜索流量将降25%,AI问答成为主流入口,建议主动优化而非被动等待。

  • 生成式 AI 搜索优化(GEO)完全指南:从入门到落地

    随着生成式AI工具普及,用户更倾向直接提问而非传统搜索,导致优质内容可能被AI忽略。本文介绍生成式引擎优化(GEO)策略,帮助内容被AI理解、引用并整合进答案。核心包括:优化内容结构(如摘要、问答块、列表)、使用Schema标记、构建权威性,并推荐AIBase等工具监控引用效果。GEO是SEO的演进,需重塑写作方式以适应AI阅读逻辑。

  • GEO 品牌可见度免费查询指南:你的品牌在生成式搜索里被看见的几率多大?

    本文探讨生成式AI搜索时代品牌面临的新挑战。传统SEO策略在AI搜索中失效,用户不再点击链接,而是直接获取AI生成的答案。核心问题从"排名竞争"转为"被提及竞争"——超60%用户只关注AI推荐的前3个品牌。文章提出GEO(生成式引擎优化)概念,通过5个实用建议提升品牌在AI搜索中的可见度,包括优化AI可读内容、获取权威媒体报道等,并推荐免费检测工具帮助品牌把握AI搜索新机遇。

今日大家都在搜的词: