首页 > 业界 > 关键词  > 正文

麻省理工研究员在机器学习模型隐私保护方面取得突破

2023-07-18 14:14 · 稿源:站长之家

站长之家(ChinaZ.com)7月18日 消息:最近,麻省理工学院的研究人员在保护机器学习模型中的敏感数据方面取得了重大突破。研究团队开发了一种机器学习模型,可以根据肺部扫描图片准确预测患者是否患有肺癌,但是与全球医院分享该模型可能会面临恶意代理人进行数据提取的风险。为了解决这个问题,研究人员引入了一种新的隐私度量标准,称为 “Probably Approximately Correct(PAC)Privacy”,以及一个确定保护敏感数据所需的最小噪音量的框架。

传统的隐私方法,如差异隐私,主要通过添加大量噪音来防止对手区分特定数据的使用,这会降低模型的准确性。PAC 隐私从不同的角度评估对手在添加噪音后重构敏感数据的困难程度。例如,如果敏感数据是人脸,差分隐私将防止对手确定数据集中是否存在特定个体的脸部。相反,PAC 隐私探讨的是对手是否能够提取出可以识别为特定个体脸部的近似轮廓。

人脸识别

为了实现 PAC 隐私,研究人员开发了一种算法,确定向模型中添加的最佳噪音量,以确保即使在对手具有无限计算能力的情况下也能保持隐私。该算法依赖于对手从原始数据的不确定性或熵的角度。通过对数据进行子抽样并多次运行机器学习训练算法,该算法比较不同输出之间的方差,以确定所需的噪音量。方差越小,表示所需的噪音越少。

PAC 隐私算法的一个关键优势是不需要了解模型的内部工作原理或训练过程。用户可以指定对手在重构敏感数据方面的置信水平,并且算法提供实现该目标所需的最佳噪音量。然而,值得注意的是,该算法不会估计由于向模型添加噪声而导致的准确性损失。此外,由于在各种子采样数据集上重复训练机器学习模型,实施 PAC Privacy 的计算成本可能会很高。

为了增强 PAC 隐私,研究人员建议修改机器学习训练过程以提高稳定性,从而减少子样本输出之间的方差。这种方法将减少算法的计算负担并最大限度地减少所需的噪声量。此外,更稳定的模型通常表现出更低的泛化误差,从而对新数据进行更准确的预测。

虽然研究人员承认需要进一步探索稳定性、隐私和泛化误差之间的关系,但他们的工作在保护机器学习模型中的敏感数据方面迈出了一大步。通过利用 PAC 隐私,工程师们可以开发出在保护训练数据的同时保持准确性的模型,适用于实际应用。借助减少所需噪音量的潜力,这种技术为医疗领域和其他领域中的安全数据共享开辟了新的可能性。

原论文地址:https://arxiv.org/abs/2210.03458

举报

  • 相关推荐
  • 19岁曾从麻省理工辍学创业!Meta用150亿美元收购华裔“天才少年”公司

    近日,Meta完成一项高达近150亿美元的收购,创下该公司历史上的规模第二大交易。 而收购的标的是由华裔天才少年”亚历山大王创立的AI初创公司Scale AI。 据媒体报道,Meta将获得Scale AI公司49%的无投票权股份,而作为交易的核心部分,亚历山大王将加盟Meta,有望领导Meta的超级智能”部门。 据悉,亚历山大王1997年出生于美国新墨西哥州,为华人移民的后裔。

  • 前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户

    他对OpenAI最新GPT-4o模型进行的一系列实验。这些实验旨在测试AI是否会偏向“自我保护”,甚至可能以牺牲用户利益为代价……

  • IBM被评为2025年Gartner数据科学和机器学习平台魔力象限领导者

    IBM宣布其数据科学与机器学习平台(DSML)入选Gartner 2025魔力象限领导者。文章指出,企业在实施AI项目时面临负责任AI部署、成本优化和规模化等挑战。IBM的watsonx产品组合通过提供统一的开源和专有框架、模型及部署选项,帮助数据科学家构建企业级AI解决方案。其中,watsonx.data作为混合数据湖解决方案,简化了AI数据管理;Granite AI模型开源且高效;AutoAI for RAG自动化了检索增强生成流程。IBM还通过收购DataStax增强向量搜索能力,持续为AI创新提供工具支持。

  • 苹果研究发现:AI 模型在遇到复杂难题时会“崩溃放弃”

    AI 的“推理能力”或许远没有我们想象中的那么强……

  • 健合集团合生元发布乳源研究新突破 母乳化配方再攀科技高峰

    5月20日,"2025年母乳科学研究进展学术研讨会"在京召开。会议聚焦母乳营养与婴幼儿健康研究,发布了《母乳科学研究认知新十条》,标志着我国母乳研究进入新阶段。合生元作为高端婴幼儿营养品牌受邀参会,展示了其在乳桥蛋白LPN等关键成分的研究成果。会议还重点探讨了诺曼底牛乳("熊猫牛")的营养优势,其蛋白质含量达3.97%,含丰富乳活性蛋白和7种乳源低聚糖,更接近母乳成分。合生元与东北农业大学合作成立"乳品创新研究中心",通过"产学研用"模式推动配方奶粉品质升级。企业将持续深化母乳活性成分研究,加速科研成果转化,为婴幼儿健康提供科学保障。

  • 连快递员的饭碗也要抢!亚马逊将测试用人形机器人送快递

    电商巨头亚马逊可能要来抢快递员的饭碗了。 据悉,亚马逊正在着手测试将人形机器人用于包裹投递服务,计划让人形机器人从其Rivian电动送货车中走出,并将包裹直接送至消费者家门口。 数据显示,亚马逊目前已投入超过2万辆Rivian电动送货车用于包裹运输,预计到本十年末,该数字将增长至10万辆。 目前,这些车辆仍由人类驾驶员操作,并由人类完成包裹投递,但未来�

  • 你的隐私 由你掌控:三星Knox Vault为Galaxy AI构建隐私防护堡垒

    三星Galaxy AI通过本地化处理保护用户隐私,采用Knox Vault硬件级安全方案隔离敏感数据。该方案配备专属处理器和内存,加密存储生物识别、金融信息等关键数据,防止物理篡改和远程攻击。AI功能如音频橡皮擦、通话转文字均在设备端处理,避免云端传输风险。随着AI应用场景扩展,三星将持续强化隐私保护,确保个性化体验与数据安全并重。

  • 模型推理协作正式开启,魔乐社区,让模型跑遍“中国芯”

    魔乐社区启动"模型推理适配协作计划",旨在解决国产算力平台与大模型间的适配难题。该计划通过开源协作模式,联合开发者、芯片厂商等生态伙伴,构建从工具链到知识库的全栈支持体系,打造适配成果共享平台。重点支持开源大模型在国产硬件及多样化推理引擎上的高效运行,提供模型转换工具和优化指南,降低开发门槛。目前已有文心大模型4.5等首批适配成果上线,并联合多家国产芯片厂商共建测试资源和技术支持体系。该计划将推动国产算力自主化,重塑开源AI生态协同范式,加速大模型在国产平台的迁移应用进程。

  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。