首页 > 业界 > 关键词  > 梯度下降最新资讯  > 正文

哥伦比亚大学提出可阻止间谍麦克风监听的神经语音伪装AI算法

2022-04-20 16:15 · 稿源: cnbeta

早在 2013 年,就有报道称 FBI 有利用特殊的技术手段来监听麦克风几周前,威斯康星大学麦迪逊分校又在一份调查报告中,揭示了静音麦克风是如何在视频会议期间被清楚收听到的。虽然结果有点让人感到惊讶,但其实耳机也可在特定情况下被当做麦克风来监听。

出于对隐私安全的关注,我们已见到一些突破性的技术。比如得益于新开发的一种算法,哥伦比亚大学研究人员声称可部分解决这方面的问题。

据悉,新算法主要聚焦两个方面。首先,它会将一个人的语音模糊和安静到接近耳语可听的水平,以避免被自动语音识别(ASR)AI 给破译。

其次,新算法还可预测即将说出的单词、并始终较 ASR 领先一步,所以新方法又被称作“预测性攻击”(Predicitive Attacks)。

639de4f7fccf4f4fe148b875e5a7305f1Y21TORf9xOKFP2D-0.png

研究配图 - 1:“神经语音伪装”可对 ASR 造成干扰

该校计算机科学助理教授 Carl Vondrick 简要解释了该技术的工作原理:

在阻止麦克风恶意监听这件事上,我们的算法有 80% 的成效,同时也是测试平台上最快、最准确的算法。

即使我们对流氓麦克风一无所知 —— 比如它的位置、甚至背后运行的计算机软件 —— 该方法依然能够奏效。

本质上,我们可以通过无线的方式来伪装一个人的声音,将其隐藏在这些监听系统之外、且不会对在室内会话的人们造成不便。

2.png

研究配图 - 2:预测攻击演示

研究的主要作者、Vondrick 的博士生 Mia Chiquier 进一步补充道:

我们的算法能够通过预测一个人接下来会说什么的特征来跟上进度,给它足够的时间来生成正确的耳语。

到目前为止,该方法已被证明适用于大多数英语词汇。后续我们计划将该算法推广到覆盖更多语种,最终让耳语听起来完全不可察觉。

3.png

研究配图 - 3:三个攻击实例

通过与其它用于攻击语音样本的方法进行比较 —— 包括统一噪声、离线投影梯度下降(PGD)和在线 PGD(实时)—— 可知该算法在预测未来 0.5 秒的讲述内容时表现最佳。

此外该算法针对标准 ASR 及其强大的对手展开了实测,虽然不见得很快就能派上实际用场,但感兴趣的朋友还是可以翻阅《实时神经语音伪装》这项基础研究的全文(PDF)。

举报

  • 相关推荐
  • MonoXiver:新AI算法将2D照片转换为3D地图

    MonoXiver是北卡罗莱纳州立大学刘贤鹏团队开发的一种利用AI从二维图片中提取三维信息的方法。它只需要一个普通的单目摄像头,就可以构建相机周围可靠的三维地图。除自动驾驶外,这种AI方法也可应用于其他领域,如机器人、环境监测、医学成像等。

  • 斯坦福大学研究人员提出MAPTree算法,改进决策树建模

    决策树是一种广泛使用的著名机器学习算法,可用于分类和回归任务。斯坦福大学的研究人员在最新论文中提出了一种称为MAPTree的决策树归纳算法,这是基于贝叶斯决策树理论的一种改进方法。这项突破不仅利于决策树算法本身的发展,也为决策树在数据挖掘等领域的应用带来了新的契机。

  • CNN算法“识粮”新方案 京都大学利用AI快速准确预测粮食产量

    京都大学的研究人员利用卷积神经网络技术,基于水稻冠层照片快速准确预测粮食产量。这项研究成果发表在《植物表型学》杂志上。该研究为利用AI技术快速准确预测全球各地粮食产量提供了可行方案,可望助力全球农业发展,保障粮食安全。

  • 公共场合手机外放太烦人!女生火车上装神经阻止阿姨外放 网友点赞

    在公共场合用手机外放的,你对此类行为反感吗?山东济南00后女生火车上假装神经病”阻止她人音乐外放声音过大:阿姨,能小点声吗?还有网友感慨,把一个正常人逼得要使出不正常的做法,哎,高铁什么时候可以对不文明行为采取更为严厉的措施。

  • 思必驰×康佳,全景AI语音缔造「全面强大」

    人工智能正在走入消费者生活的各个场景。作为传统家电行业的巨头,康佳电视一直致力于研发和创新更优质的家电产品,为用户提供个性化内容定制以及便利操控体验。双方将继续深化合作,共探智能家电行业的健康高速可持续发展。

  • 甲骨文发布语音AI助手,助力医疗保健领域

    甲骨文公司在其年度健康大会上宣布推出一款语音生成式人工智能助手,旨在改善医疗保健领域的临床工作流程。这款助手将整合到甲骨文的电子健康记录解决方案中,以帮助医护人员自动化部分行政任务,从更专注于患者护理的质量。其中一些功能已经在推出,但公司预计在未来12个月内全面推出这一助手,以改善医护工作流程并提供更多服务。

  • Google DeepMind提出DRaFT算法以高效优化扩散模型

    扩散模型已经革新了各类数据的生成建模。但是在实际应用中,如根据文本描述生成美观图像,仍需要微调模型。其效率、通用性和有效性使其成为机器学习和生成建模领域研究者和从业者的有价值工具。

  • 南加州大学提出通道式轻量级重编码CLR 解决大语言模型灾难性遗忘问题

    在持续学习领域,南加州大学和GoogleResearch提出了一项创新的方法,通道式轻量级重编码,旨在解决模型在持续学习新任务时出现的灾难性遗忘问题。持续学习的关键挑战是如何在学习新任务后仍然保持对旧任务的性能CLR方法提供了一种有前景的解决方案。这一创新方法有望为未来的持续学习研究和应用提供更多的可能性。

  • ElevenLabs推AI工具“AI Dubbing”,可将语音翻译成20多种语言

    美国初创公司ElevenLabs日前推出了一款名为“AIDubbing”的产品,该产品可以将任何语音内容翻译成20多种不同的语言。这一工具面向所有平台用户开放,被视为是改变语音配音领域的创新之举。AI配音工具的出现无疑为这个市场带来了更多可能性。

  • 日本人工智能指导方针草案提出 AI 使用方需共同承担责任

    为了确保生成式人工智能的妥善利用,日本政府正在制定面向企业等的指导方针。根据获悉的草案,不仅是AI开发商和服务提供商,也包括使用AI开展业务的企业和团体将共同承担责任。该方针强调必须维护公平的竞争环境,推动AI技术革新,为提升全社会的AI素养作出贡献。