首页 > 业界 > 关键词  > 正文

​ 谷歌研究:通过对抗性数据生成和多元评估应对GenAI的道德和安全风险

2023-11-17 10:29 · 稿源:站长之家

**划重点:**

1. 🌐 生成式AI(GenAI)在创新应用中取得了前所未有的成就,但也伴随着虚假信息、偏见和安全风险。谷歌研究通过对抗性测试和红队行动,努力应对GenAI建设中的责任难题。

2. 🛠️ BRAIDS团队致力于通过可扩展的工具、高质量数据和创新研究简化RAI实践的采用。他们通过对抗性数据生成、自动化测试集评估以及社区参与,识别和减轻GenAI产品的道德和安全风险。

3. 👥 了解和缓解GenAI的安全风险不仅是技术挑战,还涉及社会层面。通过多元的评估方法,包括对不同背景的评估者的研究,谷歌研究不断努力确保GenAI的安全性和包容性,并通过社区参与发现潜在的未知风险。

站长之家(ChinaZ.com) 11月17日 消息:谷歌研究团队在人工智能领域持续推动着对生成式AI(GenAI)安全的研究,以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分,负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践,以满足今天数十亿用户的需求,并为更好的AI未来铺平道路。

在RAI-HCT团队中,Building Responsible AI Data and Solutions(BRAIDS)团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用,特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力,推动了创新应用的迅速发展,然而,它同时也存在虚假信息、偏见和安全性的风险。

为了解决这些风险,谷歌在2018年制定了AI原则,强调有益使用和防范伤害。自那以后,谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发,致力于有效实施这些原则。BRAIDS团队专注于最后一个方面,通过创建工具和技术,帮助谷歌团队识别GenAI产品中的伦理和安全风险,并采取适当的缓解措施。

GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败,迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术,通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为,以了解潜在风险。

谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集,BRAIDS团队采用了“人在回路中”的方法,以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应,而社区参与则有助于发现“未知的未知”,并启动数据生成过程。

在安全性评估中,人类判断起着关键作用,但受到社区和文化的影响,难以自动化。为了解决这一问题,团队注重研究评估者的多样性。他们还通过引入基于大型语言模型(LLMs)的自动评估者,提高了评估的效率和规模,同时将复杂或模糊的案例交给专业评估者。

在社区参与方面,团队积极与Equitable AI Research Round Table(EARR)等组织合作,确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与,了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动,如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中,与研究界合作解决GenAI的对抗性测试挑战。

在评估GenAI安全风险时,团队认识到这既是技术上的挑战,也是社会上的挑战。安全感知是固有主观的,受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究,探讨了评估者的人口统计信息(如种族/种族、性别、年龄)和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式,为评估人类注释和模型评估的质量提供了新途径。

GenAI带来了技术变革,即使不需要编码也可以实现快速开发和定制。然而,这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险,确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分,全面进行它们对应对快速创新的要求,不断挑战自己,与内部伙伴、多元用户社区以及其他行业专家合作,发现“未知的未知”。

举报

  • 相关推荐
  • 对标OpenAI,谷歌开源Agent SDK,支持MCP、A2A、5000星

    谷歌在GoogleCloudNext25大会上,开源了首个Agent开发套件—ADK。这也是OpenAI之后第二家大厂发布的标准化智能体SDK。谷歌刚开源ADK几天在Github已经超过5000颗星,非常受开发者的欢迎。

  • 打造智能安生态,微美息(NASDAQ:WIMI)探索大数据与区块链的融合

    文章探讨了数字化时代大数据与区块链技术的融合应用。传统集中式数据管理模式存在数据孤岛、处理速度慢和安全风险等问题。区块链的去中心化、不可篡改和分布式账本特性为数据存储管理提供了安全透明框架,实现数据共享与安全防护。纳斯达克上市公司微美全息正研究大数据与区块链融合方案,通过加密算法和分布式存储确保数据安全,同时利用大数据分析提供精准决策支持。该技术组合将推动各行业智能化变革,未来还将结合AI、物联网等技术,构建更高效安全的去中心化决策生态系统。

  • OpenAI继续商业化狂飙:要靠Agent 5年赚1750亿美元

    5 年,靠Agent赚 1750 亿2025 年被称为agent元年,而OpenAI希望在这一年把agent做成自己的摇钱树。今年以来,OpenAI发布了两款基于ChatGPT的AI Agent,一是可以代替用户操作浏览器,自主执行任务的Operator;二是可以辅助做深入研究,生成专业研究报告的Deep Research。开春后,迎合市场主流趋势,OpenAI继续在模型推理和开源两侧发力,以期在竞争白热化的AI领域展现技术实力,但agent已成�

  • 再获权威认可!数势科技上榜IDC中国AI Agent用市场景图报告

    近日,国际数据公司(IDC)发布的《IDC Market Glance:中国AI Agent应用市场概览,1Q25》(Doc#CHC53057625, 2025 年 3 月)研究报告中,数势科技凭借在企业级智能体应用领域的技术突破,成功入围"数据分析"细分领域代表厂商,成为该赛道智能化转型的标杆企业。数势科技首发企业级决策分析智能体平台SwiftAgent数势科技SwiftAgent 作为基于DeepSeek及行业先进大模型构建的企业级智能决策分�

  • AI赋能企业内容生成GEO服务的价值倍增效

    当文字生产流水线遭遇量子跃迁某国际4A公司的创意总监最近在晨会上展示了两份方案:一份是人类团队耗时两周完成的品牌故事,另一份是AI系统三分钟生成的脚本。令人惊讶的是,后者不仅准确捕捉到品牌调性,还将用户评论数据转化成了动态叙事线索。"这不是替代,而是进化。"他指着屏幕上跳动的语义云图说,"就像蒸汽机发明后,纺织女工转型成了机械师。"这种变革在

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 接替Manus,字节的Agent王牌能打多久?

    字节跳动旗下智能体平台"扣子空间"推出首款由大厂发布的Agent爆款产品,自4月18日上线后引发用户疯抢邀请码。该产品具备规划、工具调用和记忆等关键能力,支持游戏攻略撰写、市场调研等复杂需求,并首创"探索模式"和"规划模式"双交互设计。虽然底层模型能力较DeepResearch和Manus仍有差距,但凭借产品设计优化和量大价优的优势,成功填补了Manus留下的市场空白。字节同步推出企业版HiAgent解决私有化部署问题,半年内智能体业务订单量增长超330%。当前行业正迎来Agent爆发期,但企业落地仍面临系统接入、数据安全等挑战。

  • 「扣子空间」内测上线,和 Agent 一起开始你的工作

    “摘星空间”平台正式推出,集生产、专业领域支持及双模系统协作能力,通过多类型AI智能体实现高效办公,具备生产提升、专家深度支持、双模协同等四大核心功能,未来将持续扩展Agent能力边界。

  • OpenAI之后,雅虎也盯上了谷歌:我们将收购Chrome!

    “如果谷歌出售 Chrome,雅虎已准备好推进收购事宜。” 雅虎搜索负责人如是说道。

  • 大厂Agent混战:复刻Manus的野心与困局

    国内AI智能体市场竞争激烈,字节、阿里、百度等大厂纷纷推出对标Manus的产品。字节"扣子空间"定位职场助手,阿里"心流"侧重深度研究,百度"心响"聚焦医疗法律等垂直场景。尽管产品形态各异,但都面临技术复制与流量争夺的双重挑战。当前智能体仅能完成基础任务,与Manus仍有差距。大厂通过免费策略抢占市场,而创业公司如GensPark已开始商业化探索。技术窗口期正在缩短,2025年被视为"智能体爆发年",这场围绕下一代AI入口的竞赛才刚刚开始。