首页 > 业界 > 关键词  > 正文

​ 谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

2023-11-17 10:29 · 稿源:站长之家

**划重点:**

1. 🌐 生成式AI(GenAI)在创新应用中取得了前所未有的成就,但也伴随着虚假信息、偏见和安全风险。谷歌研究通过对抗性测试和红队行动,努力应对GenAI建设中的责任难题。

2. 🛠️ BRAIDS团队致力于通过可扩展的工具、高质量数据和创新研究简化RAI实践的采用。他们通过对抗性数据生成、自动化测试集评估以及社区参与,识别和减轻GenAI产品的道德和安全风险。

3. 👥 了解和缓解GenAI的安全风险不仅是技术挑战,还涉及社会层面。通过多元的评估方法,包括对不同背景的评估者的研究,谷歌研究不断努力确保GenAI的安全性和包容性,并通过社区参与发现潜在的未知风险。

站长之家(ChinaZ.com) 11月17日 消息:谷歌研究团队在人工智能领域持续推动着对生成式AI(GenAI)安全的研究,以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分,负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践,以满足今天数十亿用户的需求,并为更好的AI未来铺平道路。

在RAI-HCT团队中,Building Responsible AI Data and Solutions(BRAIDS)团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用,特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力,推动了创新应用的迅速发展,然而,它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险,谷歌在2018年制定了AI原则,强调有益使用和防范伤害。自那以后,谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发,致力于有效实施这些原则。BRAIDS团队专注于最后一个方面,通过创建工具和技术,帮助谷歌团队识别GenAI产品中的伦理和安全风险,并采取适当的缓解措施。

GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败,迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术,通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为,以了解潜在风险。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集,BRAIDS团队采用了“人在回路中”的方法,以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应,而社区参与则有助于发现“未知的未知”,并启动数据生成过程。

在安全性评估中,人类判断起着关键作用,但受到社区和文化的影响,难以自动化。为了解决这一问题,团队注重研究评估者的多样性。他们还通过引入基于大型语言模型(LLMs)的自动评估者,提高了评估的效率和规模,同时将复杂或模糊的案例交给专业评估者。

在社区参与方面,团队积极与Equitable AI Research Round Table(EARR)等组织合作,确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与,了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动,如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中,与研究界合作解决GenAI的对抗性测试挑战。

在评估GenAI安全风险时,团队认识到这既是技术上的挑战,也是社会上的挑战。安全感知是固有主观的,受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究,探讨了评估者的人口统计信息(如种族/种族、性别、年龄)和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式,为评估人类注释和模型评估的质量提供了新途径。

GenAI带来了技术变革,即使不需要编码也可以实现快速开发和定制。然而,这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险,确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分,全面进行它们对应对快速创新的要求,不断挑战自己,与内部伙伴、多元用户社区以及其他行业专家合作,发现“未知的未知”。

举报

  • 相关推荐
  • 腾讯云安全发布人工智能风险评估框架,助企业构建可信智能体

    9月17日,腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施,系统性应对AI应用全生命周期的安全挑战,包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品,构建覆盖研发、部署、运维的全链路防护体系,助力企业建立可信、稳定的AI服务生态。

  • 两步生成企业级Agent,华为云Versatile平台打通智能体落地最后一公里

    华为在2025全联接大会上发布企业级智能体平台Versatile,通过极简流程实现企业级Agent开发,仅需输入业务逻辑与流程图即可完成,效率提升10倍。同时公布昇腾芯片未来三年规划,将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列,算力全球领先。CloudMatrix384 AI+Token推理服务全面上线,吞吐量达2400TPS,性能远超业界水平。该平台已与多个行业合作,助力企业构建数字化AI产线,实现业务效率飞速提升。

  • 方洪波迎战雷军,祭出两大Agent

    ​家电三巨头美的、格力和海尔,正面临小米的强力挑战。小米家电连续多个季度狂飙突进,已经让三巨头感到不安。 格力对于小米格外警惕。在小米攻势最凶猛的空调赛道,针对奥维云网7月空调线上市场份额数据,格力与小米各执一词,争执不下。 海尔同样感受到压力:去年7月,小米以12%的全渠道份额,超越海尔跻身前三。到了今年7月,海尔收复失地,市场份额升至15%,

  • 雷军回应对标苹果保时捷特斯拉:敢于对标就是勇气

    雷军将于明晚举行2025年度演讲,主题为“改变”。今日上午他提前回应网友提问,针对“造车造手机还做大芯片是否忙得过来”表示,各业务均有专业团队负责,且业务间相互关联、协同促进。对于对标苹果、保时捷、特斯拉的问题,雷军称这些公司是各自领域的世界第一,敢于对标是勇气,只有学习第一才能最终超越。他坦言演讲虽非自己长项,但希望借此机会与大家深入沟通,介绍小米的业务和发展,只要大家愿意听就会一直讲下去。

  • 卢伟冰:小米17全球首发骁龙8 Elite Gen5

    9月25日,高通公司发布全球最快移动SoC——骁龙8 Elite Gen5。该芯片采用第三代Oryon核心,配备2+6 CPU集群架构,超大核频率达4.6GHz,性能提升20%,GPU图形性能提升23%,NPU性能提升37%。小米宣布成为全球首发合作伙伴,全新小米17系列将搭载该平台,凭借卓越性能与AI技术,打造史上最强影像旗舰体验。此外,该平台首次支持专业级视频编解码器(APV),助力创作者实现专业视频制作。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • 小米17全球首发高通骁龙8 Elite Gen5:享有独占期

    小米总裁卢伟冰在直播中透露,小米17系列将全球首发高通骁龙8 Elite Gen5芯片,采用台积电3nm工艺,性能大幅提升。安兔兔跑分突破400万分,成为安卓阵营最强芯片。新机共有三款型号,将于本月正式发布。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 腾讯云李力:坚持同源同构,为企业打造更贴近Agent的AI原生云

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出“更贴近Agent的AI+Infra”解决方案,包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调,“同源同构”是核心原则,确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务,降低企业技术门槛,已服务国内90%大模型厂商及千行百业。

  • 男子被毒蛇咬伤 女友教科书级应对:第一时间拿起手机拍照

    重庆巫山县一男子散步时被毒蛇咬伤,女友冷静应对:立即拍照记录蛇样,用清水清洗伤口并拨打120,同步将照片发送医生。经专家辨认确认为原矛头蝮蛇,迅速定位抗蛇毒血清医院,半小时抵达。经三天治疗病情好转,正稳步康复。该案例为公众提供被蛇咬伤后的正确处置示范:拍照存证、清洗伤口、及时就医。

今日大家都在搜的词: