首页 > 业界 > 关键词  > 正文

​ 谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

2023-11-17 10:29 · 稿源:站长之家

**划重点:**

1. 🌐 生成式AI(GenAI)在创新应用中取得了前所未有的成就,但也伴随着虚假信息、偏见和安全风险。谷歌研究通过对抗性测试和红队行动,努力应对GenAI建设中的责任难题。

2. 🛠️ BRAIDS团队致力于通过可扩展的工具、高质量数据和创新研究简化RAI实践的采用。他们通过对抗性数据生成、自动化测试集评估以及社区参与,识别和减轻GenAI产品的道德和安全风险。

3. 👥 了解和缓解GenAI的安全风险不仅是技术挑战,还涉及社会层面。通过多元的评估方法,包括对不同背景的评估者的研究,谷歌研究不断努力确保GenAI的安全性和包容性,并通过社区参与发现潜在的未知风险。

站长之家(ChinaZ.com) 11月17日 消息:谷歌研究团队在人工智能领域持续推动着对生成式AI(GenAI)安全的研究,以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分,负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践,以满足今天数十亿用户的需求,并为更好的AI未来铺平道路。

在RAI-HCT团队中,Building Responsible AI Data and Solutions(BRAIDS)团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用,特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力,推动了创新应用的迅速发展,然而,它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险,谷歌在2018年制定了AI原则,强调有益使用和防范伤害。自那以后,谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发,致力于有效实施这些原则。BRAIDS团队专注于最后一个方面,通过创建工具和技术,帮助谷歌团队识别GenAI产品中的伦理和安全风险,并采取适当的缓解措施。

GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败,迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术,通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为,以了解潜在风险。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集,BRAIDS团队采用了“人在回路中”的方法,以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应,而社区参与则有助于发现“未知的未知”,并启动数据生成过程。

在安全性评估中,人类判断起着关键作用,但受到社区和文化的影响,难以自动化。为了解决这一问题,团队注重研究评估者的多样性。他们还通过引入基于大型语言模型(LLMs)的自动评估者,提高了评估的效率和规模,同时将复杂或模糊的案例交给专业评估者。

在社区参与方面,团队积极与Equitable AI Research Round Table(EARR)等组织合作,确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与,了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动,如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中,与研究界合作解决GenAI的对抗性测试挑战。

在评估GenAI安全风险时,团队认识到这既是技术上的挑战,也是社会上的挑战。安全感知是固有主观的,受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究,探讨了评估者的人口统计信息(如种族/种族、性别、年龄)和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式,为评估人类注释和模型评估的质量提供了新途径。

GenAI带来了技术变革,即使不需要编码也可以实现快速开发和定制。然而,这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险,确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分,全面进行它们对应对快速创新的要求,不断挑战自己,与内部伙伴、多元用户社区以及其他行业专家合作,发现“未知的未知”。

举报

  • 相关推荐
  • 谷歌研究表明:量子计算机可比预期更快破解 RSA 加密

    研究不仅展示了未来攻击的可能蓝图,也对全球安全界发出了“量子来临”的警告……

  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • AI智能生成2万封邮件,全球首款外贸信AI Agent亮相

    2025年印尼雅加达国际工业周于6月4-7日盛大开幕,米奥兰特推出全球首个展会场景外贸AI+Agent系统,实现"沟通即生成"的智能贸易新模式。展会吸引超4.5万专业买家,AI预展平台和智能体技术驱动下,买卖对接率突破50%。核心亮点包括:1)AI眼镜支持128种语言实时翻译,打破语言壁垒;2)外贸信AI Agent自动生成含产品参数、运输条款等定制邮件,10分钟完成传统需通宵的工

  • Agent真的卷疯了,AI办公Agent也来了。

    ​我一直说,每个行业,都一定会有专门优化的垂直领域的Agent。 你看,通用Agent的王座上有Manus,研究类的有DeepResearch,旅游有飞猪问一问,设计类有Lovart。 那现在,办公领域的Agent也来了。 专为办公打造。 这玩意就是昆仑万维的Skywork Super Agents。

  • 数势科技凭SwiftAgent获评 IDC「数据管理分析与生成式AI」中国代表厂商

    IDC最新报告显示,数据管理分析与生成式AI应用呈现四大技术趋势:数据分析平台、数据平台、决策自动化和数据流管理。59%企业计划在2025年前投资自动化基础设施和AI解决方案。数势科技自主研发的SwiftAgent 3.0智能分析平台,通过实时数据洞察、异常预警和智能策略建议,构建"分析-决策-行动"闭环,显著提升企业响应速度。该平台整合企业知识库和历史数据,提供可�

  • 京东云升级JoyAgent 2.0:分钟级生成企业级专业数字员工

    京东云在上海发布九大AI产品,包括JoyAgent智能体2.0、JoyBuild大模型开发平台等,助力企业重构AI基础设施。京东集团技术委员会主席曹鹏表示,数字员工上岗率将成为衡量企业先进性的标准。JoyAgent 2.0具备三大核心能力:主动分析执行、丰富工具链和多智能体协同,已在研发、政务服务等场景深度应用。目前京东内部智能体数量超14000个,覆盖零售、物流等多个领域,显著提升工作效率。该平台还接入数十个大模型,提供100多个行业解决方案模板,支持企业快速构建专属智能体。

  • Agent成了腾讯AI最大的牌面

    抓住DeepSeek带来的契机扭转AI领域的竞争态势之后,腾讯围绕AI应用的布局正在快速深化。 元宝、ima等原生AI应用是腾讯进行探索的最前线。腾讯元宝通过大规模市场投入获得用户增长后,继续拓展了更多能力,包括将元宝放入微信好友列表,打通与腾讯地图、腾讯文档的连接,以及上线Chrome浏览器插件。腾讯管理层目前还在观察用户对这些新增功能的反馈,判断哪些功能可以�

  • IBM高管详解如何加速企业AI应用:Agent是路径,不是噱头

    IBM在2025 Think大会上提出,企业AI竞争已从实验阶段转向实际应用阶段,关键在于定制化AI解决方案和可量化的业务成果。IBM强调企业级AI Agent需具备"动手能力",能嵌入业务流程、完成任务并监控维护,而非仅是对话助手。其watsonx平台构建了模型、数据、任务执行的完整技术栈,并通过三层架构(交互层、任务分解层、系统连接层)实现闭环运行。IBM还推出"AgentOps"体系,将智能体模块化、服务化,建立能力目录和监控机制,解决企业部署AI Agent时的系统对接、价值评估和管理难题。实践案例显示,制造业设备巡检Agent可节省70%人力成本。IBM认为AI Agent是企业数字化能力的延伸,需与业务流程深度融合,而非追赶技术潮流。

  • 如何用AI Agent让企业效率翻倍?

    2025年5月,红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身,而是为用户创造的实际收益。在此背景下,Agent的重要性被前所未有的推至所有人的视野前沿。 硅谷大厂开启了第一波加速,微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代,正在见证AI系统如何以全新方式帮助我们解决问�

  • 非农数据高好还是低好,领峰环球揭开现货黄金3大应对策略

    本文分析了美国非农就业数据对黄金价格的影响机制及交易策略。非农数据强劲表明经济向好,可能推动美联储加息,导致美元升值、黄金承压;数据疲软则预示宽松政策延续,美元走弱利好黄金。文章提出三大交易策略:1)数据公布前建立对冲组合;2)把握数据公布后30分钟内的价格波动(平均25-35美元);3)关注技术回调带来的二次入场机会。领峰环球平台提供低点差交易和MT5系统支持,帮助投资者精准捕捉非农行情波动。无论数据好坏,都能通过专业分析工具把握交易机会。