谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

2023-11-17 10:29 · 稿源：站长之家

**划重点:**
1. 🌐 生成式AI（GenAI）在创新应用中取得了前所未有的成就，但也伴随着虚假信息、偏见和安全风险。谷歌研究通过对抗性测试和红队行动，努力应对GenAI建设中的责任难题。
2. 🛠️ BRAIDS团队致力于通过可扩展的工具、高质量数据和创新研究简化RAI实践的采用。他们通过对抗性数据生成、自动化测试集评估以及社区参与，识别和减轻GenAI产品的道德和安全风险。
3. 👥 了解和缓解GenAI的安全风险不仅是技术挑战，还涉及社会层面。通过多元的评估方法，包括对不同背景的评估者的研究，谷歌研究不断努力确保GenAI的安全性和包容性，并通过社区参与发现潜在的未知风险。

站长之家(ChinaZ.com) 11月17日消息:谷歌研究团队在人工智能领域持续推动着对生成式AI（GenAI）安全的研究，以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分，负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践，以满足今天数十亿用户的需求，并为更好的AI未来铺平道路。

在RAI-HCT团队中，Building Responsible AI Data and Solutions（BRAIDS）团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用，特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力，推动了创新应用的迅速发展，然而，它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险，谷歌在2018年制定了AI原则，强调有益使用和防范伤害。自那以后，谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发，致力于有效实施这些原则。BRAIDS团队专注于最后一个方面，通过创建工具和技术，帮助谷歌团队识别GenAI产品中的伦理和安全风险，并采取适当的缓解措施。

GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败，迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术，通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为，以了解潜在风险。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集，BRAIDS团队采用了“人在回路中”的方法，以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应，而社区参与则有助于发现“未知的未知”，并启动数据生成过程。

在安全性评估中，人类判断起着关键作用，但受到社区和文化的影响，难以自动化。为了解决这一问题，团队注重研究评估者的多样性。他们还通过引入基于大型语言模型（LLMs）的自动评估者，提高了评估的效率和规模，同时将复杂或模糊的案例交给专业评估者。

在社区参与方面，团队积极与Equitable AI Research Round Table（EARR）等组织合作，确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与，了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动，如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中，与研究界合作解决GenAI的对抗性测试挑战。

在评估GenAI安全风险时，团队认识到这既是技术上的挑战，也是社会上的挑战。安全感知是固有主观的，受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究，探讨了评估者的人口统计信息（如种族/种族、性别、年龄）和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式，为评估人类注释和模型评估的质量提供了新途径。

GenAI带来了技术变革，即使不需要编码也可以实现快速开发和定制。然而，这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险，确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分，全面进行它们对应对快速创新的要求，不断挑战自己，与内部伙伴、多元用户社区以及其他行业专家合作，发现“未知的未知”。

（举报）

谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

荐对标OpenAI，谷歌开源Agent SDK，支持MCP、A2A、5000星

打造智能安全生态，微美全息（NASDAQ:WIMI）探索大数据与区块链的融合应用

荐OpenAI继续商业化狂飙：要靠Agent 5年赚1750亿美元

再获权威认可！数势科技上榜IDC中国AI Agent应用市场全景图报告

AI赋能企业内容生成：GEO服务的价值倍增效应

AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

荐接替Manus，字节的Agent王牌能打多久？

「扣子空间」内测上线，和 Agent 一起开始你的工作

OpenAI之后，雅虎也盯上了谷歌：我们将收购Chrome！

荐大厂Agent混战：复刻Manus的野心与困局

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

苹果高管称：10 年后，可能 iPhone 将不复存在！

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

基于安卓16的三星 One UI 8 本月发布首个测试版本

站长商机

​ 谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

热文

站长商机

谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险