首页 > 业界 > 关键词  > Deepfake最新资讯  > 正文

Meta开发AudioSeal技术,可以秘密为 Deepfake 音频添加水印

2024-02-04 14:38 · 稿源:站长之家

**划重点:**

1. 🌐 Meta的研究人员开发了一种方法,在人工智能生成的语音中隐形水印,可用于主动检测AI生成的言论,识别生成它的模型。

2. 🚀 Facebook Research提出的AudioSeal技术通过水印标记AI生成的语音,以解决对抗合成语音的检测问题,具有高精度和鲁棒性。

3. ⚠️ 虽然AudioSeal是一项重要进展,但仍需谨慎应用,以克服隐私和伦理风险,同时也强调需要不断演进的解决方案以确保对抗合成媒体的可靠性和合法性。

站长之家(ChinaZ.com)2月4日 消息:近期,Meta的研究人员在对抗合成语音的挑战中取得了一项重大突破。他们提出了一种名为AudioSeal的技术,该技术能够在人工智能生成的语音中嵌入隐形水印,用于主动检测AI生成的言论,同时还能够识别生成它的具体模型。

人工智能语音合成技术的迅速发展使得虚构的人类语音变得极为逼真。然而,这也引发了对声音克隆、深度伪造和其他形式的音频操纵的担忧。为了有效区分真实录音和音频深度伪造,需要强大的新型检测方法。在这篇文章中,我们将介绍来自Facebook Research的一种新颖技术,名为AudioSeal,它通过在AI生成的语音中嵌入隐形水印来解决这一问题。

image.png

传统的检测虚构音频的方法通常采用被动分析,即训练分类器识别真实和合成语音之间的统计差异。然而,随着合成系统变得越来越先进和自然,被动检测在未来可能会变得不够可靠。因此,需要采用主动水印技术,直接在AI生成的音频中嵌入信号。

AudioSeal具有两个关键组成部分:生成器和检测器。生成器将隐形水印嵌入由语音合成模型产生的音频中,而检测器则分析音频剪辑,精确定位包含水印的区域,从而识别AI生成的部分。

与先前的音频水印技术相比,AudioSeal在多个方面取得了显著的改进。它具有广泛适用性,只需训练一次即可适用于任何模型或语言,实现了对模型身份消息的扩展,同时保持高鲁棒性。此外,其高效的检测速度使其在实时和大规模筛查方面表现出色。

然而,尽管AudioSeal具有令人期待的优势,对其负责任的应用仍需谨慎。该技术依赖于保持检测器的机密性和对抗不同攻击的鲁棒性,以防止恶意行为者识别并移除水印。此外,水印技术可能涉及一些伦理风险,如大规模监控,因此可能需要跨不同供应商标准化,以避免竞争升级。

AudioSeal是解决检测AI生成音频挑战的一项创新技术。通过隐形水印合成语音,AudioSeal提供了局部检测,即使合成模型快速演进,也能保持高度鲁棒。然而,随着威胁形势的变化,更好的解决方案仍需要不断发展,以识别操纵风险并在人工智能能力不断增强的背景下建立对语音界面的信任。

举报

  • 相关推荐
  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • Meta重组仍在继续,Reality Labs部门裁员超百人

    “提高绩效管理的标准,让绩效低下的员工尽快下岗”,扎克伯格在此前的备忘录中如是写道。同时,还敦促员工要提高积极性……

  • OpenAI没说的秘密Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者

    Meta、西北大学和新加坡国立大学的研究团队提出TokenShuffle技术,显著提升了自回归模型生成高分辨率图像的能力。该技术通过局部窗口内的token合并与解构操作,将视觉token数量减少为平方分之一,首次实现2048×2048分辨率图像生成。基于27亿参数的Llama模型,TokenShuffle在GenAI基准测试中获得0.77综合得分,超越同类自回归模型0.18分,在人类评估中展现出更好的文本对齐和视觉质量。该方法无需修改Transformer架构,通过三阶段训练策略(512→1024→2048分辨率)逐步提升生成能力,为多模态大语言模型的高效高保真图像生成开辟了新路径。

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

  • AI日报:夸克发布“深度搜索”新品;Anthropic推Claude网络搜API;DeepSeek致谢腾讯技术团队;微软采用谷歌的A2A标准

    本期AI日报聚焦多个AI领域最新动态:1)阿里夸克发布"深度搜索"新品,采用先思考后检索模式解决复杂问题;2)Anthropic推出Claude网络搜索API,提升AI信息获取能力;3)谷歌升级Gemini 2.0 Flash图像生成功能,提升视觉质量和文字清晰度;4)DeepSeek感谢腾讯团队优化其开源通信框架,性能提升高达100%;5)苹果考虑在Safari引入AI搜索功能应对用户需求变化;6)HeyGen发布Avatar IV数字人�

  • Flyme AIOS 2发布:魅族Note 16首发 接入DeepSeek

    在智能交互方面,Flyme AIOS2接入DeepSeek R1满血版,具备深度思考能力,并提供三种模式供用户选择。此外,星纪魅族成为首家接入阿里云首个端到端全模态大模型通义千问Qwen - Omni的厂商,这使得系统能带来更敏捷聪明、更具拟人情感的超自然语音对话体验,正式

  • 1/8成本比肩Claude 3.7,Mistral Medium 3来了

    欧洲AI公司Mistral发布多模态新模型Mistral Medium 3,主打编程和多模态理解能力,性能达Claude 3.7的90%但成本仅1/8(输入0.4美元/百万token)。该模型在编程和STEM任务表现突出,支持企业级定制部署,已上线多个云平台。同时推出企业聊天机器人服务Le Chat Enterprise,集成第三方工具。尽管因未开源权重引发争议,其高性价比仍获业界关注。公司透露正在开发更大规模模型。

  • 大型科技公司审查更加严苛,苹果和 Meta 遭欧天价罚款

    针对苹果和 Meta 的行动可能仅仅是一个开始。谷歌和 X 也正在欧盟监管机构的监管之下 —— 立法者正在推动采取坚定、一致的措施……

  • DeepSeek带飞寒武纪

    寒武纪凭借AI芯片业务实现扭亏为盈,2024年首次实现上市后盈利,2025年Q1营收11.11亿元同比暴增4230%,净利润3.55亿元。这家曾连亏8年、累计亏损54亿元的"中国版英伟达",因美国对H20芯片出口管制获得市场红利,但客户集中度过高(前五大客户贡献94.63%营收)和现金流波动仍是隐忧。当前国产芯片迎来发展机遇,华为昇腾、壁仞等企业纷纷抢占市场,行业竞争日趋激烈。

  • DeepSeek上新!开源发布DeepSeek-Prover-V2-671B新模型

    快科技4月30日消息,今日,DeepSeek 今日在 AI 开源社区 Hugging Face 发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据介绍,DeepSeek-Prover-V2-671B 其参数量达到6710亿,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多种计算精度,方便模型更快、更省资源地训练和部署。在模型架构上,该模型使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。同时支持超长上下文,最大位置嵌入达163840,使其能处理复杂的数学证明,并且采用了FP8量化,可通过量化技术减小模型大小,提