哥伦比亚大学提出可阻止间谍麦克风监听的神经语音伪装AI算法

2022-04-20 16:15 · 稿源： cnbeta

早在 2013 年，就有报道称 FBI 有利用特殊的技术手段来监听麦克风。几周前，威斯康星大学麦迪逊分校又在一份调查报告中，揭示了静音麦克风是如何在视频会议期间被清楚收听到的。虽然结果有点让人感到惊讶，但其实耳机也可在特定情况下被当做麦克风来监听。

出于对隐私安全的关注，我们已见到一些突破性的技术。比如得益于新开发的一种算法，哥伦比亚大学研究人员声称可部分解决这方面的问题。

据悉，新算法主要聚焦两个方面。首先，它会将一个人的语音模糊和安静到接近耳语可听的水平，以避免被自动语音识别（ASR）AI 给破译。

其次，新算法还可预测即将说出的单词、并始终较 ASR 领先一步，所以新方法又被称作“预测性攻击”（Predicitive Attacks）。

研究配图 - 1：“神经语音伪装”可对 ASR 造成干扰

该校计算机科学助理教授 Carl Vondrick 简要解释了该技术的工作原理：

在阻止麦克风恶意监听这件事上，我们的算法有 80% 的成效，同时也是测试平台上最快、最准确的算法。

即使我们对流氓麦克风一无所知 —— 比如它的位置、甚至背后运行的计算机软件 —— 该方法依然能够奏效。

本质上，我们可以通过无线的方式来伪装一个人的声音，将其隐藏在这些监听系统之外、且不会对在室内会话的人们造成不便。

研究配图 - 2：预测攻击演示

研究的主要作者、Vondrick 的博士生 Mia Chiquier 进一步补充道：

我们的算法能够通过预测一个人接下来会说什么的特征来跟上进度，给它足够的时间来生成正确的耳语。

到目前为止，该方法已被证明适用于大多数英语词汇。后续我们计划将该算法推广到覆盖更多语种，最终让耳语听起来完全不可察觉。

研究配图 - 3：三个攻击实例

通过与其它用于攻击语音样本的方法进行比较 —— 包括统一噪声、离线投影梯度下降（PGD）和在线 PGD（实时）—— 可知该算法在预测未来 0.5 秒的讲述内容时表现最佳。

此外该算法针对标准 ASR 及其强大的对手展开了实测，虽然不见得很快就能派上实际用场，但感兴趣的朋友还是可以翻阅《实时神经语音伪装》这项基础研究的全文（PDF）。