首页 > 业界 > 关键词  > 正文

麻省理工研究员在机器学习模型隐私保护方面取得突破

2023-07-18 14:14 · 稿源:站长之家

站长之家(ChinaZ.com)7月18日 消息:最近,麻省理工学院的研究人员在保护机器学习模型中的敏感数据方面取得了重大突破。研究团队开发了一种机器学习模型,可以根据肺部扫描图片准确预测患者是否患有肺癌,但是与全球医院分享该模型可能会面临恶意代理人进行数据提取的风险。为了解决这个问题,研究人员引入了一种新的隐私度量标准,称为 “Probably Approximately Correct(PAC)Privacy”,以及一个确定保护敏感数据所需的最小噪音量的框架。

传统的隐私方法,如差异隐私,主要通过添加大量噪音来防止对手区分特定数据的使用,这会降低模型的准确性。PAC 隐私从不同的角度评估对手在添加噪音后重构敏感数据的困难程度。例如,如果敏感数据是人脸,差分隐私将防止对手确定数据集中是否存在特定个体的脸部。相反,PAC 隐私探讨的是对手是否能够提取出可以识别为特定个体脸部的近似轮廓。

人脸识别

为了实现 PAC 隐私,研究人员开发了一种算法,确定向模型中添加的最佳噪音量,以确保即使在对手具有无限计算能力的情况下也能保持隐私。该算法依赖于对手从原始数据的不确定性或熵的角度。通过对数据进行子抽样并多次运行机器学习训练算法,该算法比较不同输出之间的方差,以确定所需的噪音量。方差越小,表示所需的噪音越少。

PAC 隐私算法的一个关键优势是不需要了解模型的内部工作原理或训练过程。用户可以指定对手在重构敏感数据方面的置信水平,并且算法提供实现该目标所需的最佳噪音量。然而,值得注意的是,该算法不会估计由于向模型添加噪声而导致的准确性损失。此外,由于在各种子采样数据集上重复训练机器学习模型,实施 PAC Privacy 的计算成本可能会很高。

为了增强 PAC 隐私,研究人员建议修改机器学习训练过程以提高稳定性,从而减少子样本输出之间的方差。这种方法将减少算法的计算负担并最大限度地减少所需的噪声量。此外,更稳定的模型通常表现出更低的泛化误差,从而对新数据进行更准确的预测。

虽然研究人员承认需要进一步探索稳定性、隐私和泛化误差之间的关系,但他们的工作在保护机器学习模型中的敏感数据方面迈出了一大步。通过利用 PAC 隐私,工程师们可以开发出在保护训练数据的同时保持准确性的模型,适用于实际应用。借助减少所需噪音量的潜力,这种技术为医疗领域和其他领域中的安全数据共享开辟了新的可能性。

原论文地址:https://arxiv.org/abs/2210.03458

举报

  • 相关推荐
  • 微算法科技(MLGO)利用逻辑回归和 LSTM 机器学习模型的准确比特币价格预测算法技术

    微算科技(NASDAQ:MLGO)开发的LR-LSTM比特币价格预测技术,结合逻辑回归和长短期记忆网络优势,能更准确预测比特币价格波动。该技术通过多层次特征学习和时间序列建模,处理市场供需、交易量等基本特征,同时捕捉价格序列中的长期依赖关系。相比传统统计模型,LR-LSTM能更好适应数字货币市场的高波动性,为投资者提供可靠决策支持。实时更新和反馈机制确保模型随市场变化保持准确性,帮助投资者降低交易风险,把握市场机会。

  • 隐私保护神器!阿里小号这些号段今日结束服务下线:号码回收 余额退回

    阿里小号宣布将于2025年4月29日24时停止162/165/167/170/171号段服务,相关号码将被回收。用户需在10个工作日内完成余额退款,并提前解绑银行、社交等平台绑定,建议更换为主号以免影响验证。目前13x开头的阿里小号仍可正常使用。该服务是阿里通信2014年推出的虚拟运营商业务,支持一机多号功能,无需实体SIM卡即可实现通话短信,常用于租房、二手交易等隐私保护场景。部分用户反映未收到下线通知短信,客服表示未收到通知的号码仍可继续使用。

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • 全国首例保护AI模型结构判决!抖音诉B612侵害著作权 获赔160万

    快科技4月17日消息,据媒体报道,近日,北京知识产权法院审结的抖音公司诉亿睿科公司侵害著作权及不正当竞争案正式生效。该院在二审判决中认定亿睿科公司构成不正当竞争,需赔偿抖音公司损失及合理开支共计160万元。该案作为全国首例保护AI模型结构和参数的生效判决,明确了人工智能模型结构和参数的可保护性,为未来AI模型的保护提供了指引。据案件披露,抖音公司发现,亿睿科公司运营的B612咔叽APP上线了与抖音公司一款变身漫画特效具有相同功能的少女漫画特效,二者在对同一张图片进行风格转换时生成高度近似的结果,且在结构、参数等?

  • 丽之健组织高管前往南昌学习

    4 月 12 日- 13 日,郑州丽之健体育用品有限公司董事长吕万亮组织企业高管团队赴南昌开展稻盛和夫经营哲学专题研修,通过深度研习稻盛和夫经营核心理念,探索企业可持续发展之道。此次活动标志着丽之健在传承百年企业精神、践行社会责任与人文关怀的征程上迈出新的一步。 一、溯源经营哲学:从日本到南昌的传承作为中国航天事业合作伙伴,丽之健始终注重管理创新�

  • 酒店机器人3年亏了8个亿:机器人实际配送效率低下

    酒店机器人近年成为行业标配产品,但市场表现不尽如人意。某酒店管理人员坦言,实际运营中发现机器人配送效率低下,无法真正节约人工成本,最终选择弃用。与此同时,市场竞争格局正发生变化,九号机器人、擎朗智能等新兴企业通过多场景适配和人机协同等差异化策略,逐步蚕食市场份额。数据显示,2023年全球市场前五名企业份额差距已不足8个百分点。

  • 首个人形机器人半马冠军诞生:天工机器人已经冲线完赛

    快科技4月19日消息,今天上午,全球首个人形机器人半程马拉松在北京亦庄开跑,21支机器人队伍与12000名人类选手同场竞技,共同挑战21.0975公里的赛道。据央视新闻官微介绍,目前天工机器人以36分54秒率先冲线完赛,夺得冠军。据悉,天工是北京人形机器人创新中心发布的纯电驱拟人奔跑的全尺寸人形机器人,能以6公里/小时的速度稳定奔跑,是该中心自主研发的通用人形机

  • 刘慈欣谈机器人跑半马:具身机器人将给社会带来颠覆性影响

    快科技4月20日消息,日前,全球首个人形机器人半程马拉松赛在北京亦庄举行,经过21公里的比拼后,天工Ultra以2小时40分钟的成绩率先完赛,夺得首个人形机器人半马冠军。据央视财经报道,在人形机器人半马开跑前夕,科幻小说《三体》《流浪地球》的作者刘慈欣接受专访。刘慈欣表示,赛事更多的是一种展示,机器人跑步表现它很平衡的跑步移动功能,就像春晚上跳秧歌�

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 不要思考过程,推理模型能力能够更强

    UC伯克利和艾伦实验室的最新研究表明,推理模型无需依赖冗长的思考过程也能有效工作。研究人员提出的"无思考(NoThinking)"方法通过简单提示直接生成解决方案,跳过了传统推理模型中的显性思考步骤。实验证明,在低资源(低token数量、少模型参数)或低延迟情况下,NoThinking方法的表现优于传统思考方式,能减少token使用量并提高推理速度。该方法在数学问题解决、编程和形式定理证明等任务中表现优异,尤其在资源受限时优势更明显。研究还发现,结合并行计算扩展后,NoThinking能进一步提升性能,在保持准确性的同时显著降低延迟和计算成本。这一发现挑战了"推理模型必须依赖详细思考过程"的传统认知。