谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

2023-11-17 10:29 · 稿源：站长之家

**划重点:**
1. 🌐 生成式AI（GenAI）在创新应用中取得了前所未有的成就，但也伴随着虚假信息、偏见和安全风险。谷歌研究通过对抗性测试和红队行动，努力应对GenAI建设中的责任难题。
2. 🛠️ BRAIDS团队致力于通过可扩展的工具、高质量数据和创新研究简化RAI实践的采用。他们通过对抗性数据生成、自动化测试集评估以及社区参与，识别和减轻GenAI产品的道德和安全风险。
3. 👥 了解和缓解GenAI的安全风险不仅是技术挑战，还涉及社会层面。通过多元的评估方法，包括对不同背景的评估者的研究，谷歌研究不断努力确保GenAI的安全性和包容性，并通过社区参与发现潜在的未知风险。

站长之家(ChinaZ.com) 11月17日消息:谷歌研究团队在人工智能领域持续推动着对生成式AI（GenAI）安全的研究，以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分，负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践，以满足今天数十亿用户的需求，并为更好的AI未来铺平道路。

在RAI-HCT团队中，Building Responsible AI Data and Solutions（BRAIDS）团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用，特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力，推动了创新应用的迅速发展，然而，它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险，谷歌在2018年制定了AI原则，强调有益使用和防范伤害。自那以后，谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发，致力于有效实施这些原则。BRAIDS团队专注于最后一个方面，通过创建工具和技术，帮助谷歌团队识别GenAI产品中的伦理和安全风险，并采取适当的缓解措施。

GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败，迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术，通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为，以了解潜在风险。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集，BRAIDS团队采用了“人在回路中”的方法，以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应，而社区参与则有助于发现“未知的未知”，并启动数据生成过程。

在安全性评估中，人类判断起着关键作用，但受到社区和文化的影响，难以自动化。为了解决这一问题，团队注重研究评估者的多样性。他们还通过引入基于大型语言模型（LLMs）的自动评估者，提高了评估的效率和规模，同时将复杂或模糊的案例交给专业评估者。

在社区参与方面，团队积极与Equitable AI Research Round Table（EARR）等组织合作，确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与，了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动，如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中，与研究界合作解决GenAI的对抗性测试挑战。

在评估GenAI安全风险时，团队认识到这既是技术上的挑战，也是社会上的挑战。安全感知是固有主观的，受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究，探讨了评估者的人口统计信息（如种族/种族、性别、年龄）和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式，为评估人类注释和模型评估的质量提供了新途径。

GenAI带来了技术变革，即使不需要编码也可以实现快速开发和定制。然而，这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险，确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分，全面进行它们对应对快速创新的要求，不断挑战自己，与内部伙伴、多元用户社区以及其他行业专家合作，发现“未知的未知”。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
ImagenHub官网体验入口 AI图像生成模型评估平台使用指南方法教程

ImagenHub是一个一站式库，用于标准化所有条件图像生成模型的推理和评估。该项目首先定义了七个突出的任务并创建了高质量的评估数据集。ImagenHub设计了两个人工评估指标，语义一致性和感知质量，并训练专家评审员根据这些指标对模型输出进行评估，获得了高的评估者间一致性。

ImagenHub
MediaTek DaVinci GenAI Platform官网体验入口联发科生成式AI平台使用地址

MediaTekDaVinciGenAIPlatform是一个强大的生成式AI平台，能提供自然流畅的人工智能对话体验，充当个人助理。平台还能整合多种信息源，帮助用户全方位了解相关信息。MediaTekDaVinciGenAIPlatform的使用场景多种多样，包括：编写高质量文章快速了解技术文档内容根据需求扩展平台功能MediaTekDaVinciGenAIPlatform的产品特色直接聊天文档分析插件扩展希望通过此平台提高工作和生活效率，获取所需信息和服务的用户可以尝试使用MediaTekDaVinciGenAIPlatform。

MediaTekDaVinci 联发科
DigenAI官网体验入口 AI视频创作工具网站使用方法教程

DigenAI 是一家应用型AI研究公司，专注于革新视频创作方式。它为全球用户提供了将想象转化为现实的入口。DigenAI提供基于生成式头像的视频创作功能，简化创作流程并生成出色视频作品。目前正处于公测阶段，欢迎用户加入体验。点击前往DigenAI官网体验入口需求人群：公司用DigenAI创作营销视频，通过生成式头像逼真地表现品牌形象，大幅提高创作效率。个人创作者使用DigenAI

DigenAI
同盾科技应对新风险形态，为银行搭建智能风控系统提供解决方案

随着金融科技的飞速发展，银行业务逐渐拓展至线上，风险形态也日趋复杂多变。作为智能风控领域的佼佼者，深知银行在数字化转型过程中所面临的挑战。同盾科技将继续深耕智能风控领域，与更多金融机构携手合作，共同应对金融行业的新挑战，为构建更加安全、高效的金融生态贡献力量。

金融科技智能风控数字化转型
第十四届交博会开幕海信发布道路交通安全风险防控系统

4月11日，海信智慧交通新产品亮相第十四届交博会。紧扣交通事故预防“减量控大”的工作目标，海信全新发布道路交通安全风险防控系统。多地交警到访海信展区就该系统的亮点优势及应用效果，与海信工程师进行沟通讨论，并对海信的技术实力表示赞赏与认可。

智慧交通道路交通安全大数据
Garment3DGen：用衣服图片就能生成逼纹理效果的3D模型

研究人员提出了一种名为Garment3DGen的方法，旨在实现3D服装的风格化和纹理生成。该方法通过结合先进的计算机视觉技术和人工智能算法，为用户提供了一个简单高效的工具，用于实现服装设计的个性化风格化。随着这一技术的不断完善和推广，我们有理由相信，未来的服装设计将更加多样化和个性化。

Garment3DGen AI头条
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
Heygen又一竞争对手？数字人克隆工具Digen AI 可同时保持手势、口型和语调同步

近期，一款名为Digen AI的工具引起了广泛关注，它被认为是Heygen的有力竞争对手。Digen AI的主要功能是克隆数字人，无论是动态还是静态状态下，它都能保持手势、口型和语调的完美同步。这一功能的实现，得益于Digen AI的先进技术。通过深度学习和人工智能技术，Digen AI能够精确地捕捉到人的动作和表情，然后通过算法进行处理，使得克隆的数�

Digen AI头条
VQAScore官网体验入口 AI文本到视觉生成评估工具使用地址

VQAScore是一种新的评估指标，旨在更好地评估复杂的文本到视觉生成效果。这一指标结合了CLIP-FlanT5模型，能够在文本到图像/视频/3D生成评估中实现最佳性能，是评估和优化文本到视觉生成模型的强大工具。如果您希望了解更多信息并开始使用VQAScore进行评估，请访问VQAScore官方网站。

VQAScore

今日大家都在搜的词：

热文

3 天
7天

​ 谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

今日大家都在搜的词：

热文

站长商机

谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险