谷歌演示「通用翻译器」：AI 重新生成匹配新语言口型的视频

2023-05-11 11:39 · 稿源：站长之家

站长之家(ChinaZ.com) 5月11日消息:谷歌正在测试一种功能强大的新翻译服务，这种服务可以用新语言重新配音视频，同时使说话者的唇形与他们从未说过的话同步。它可能非常有用，但该公司已经明确表示存在滥用可能，并采取了预防措施。

谷歌，google

这个「通用翻译器」在谷歌 I/O 上展示给大家，是由谷歌新的「技术与社会」部门的负责人 James Manyika 演示的。这个示例表明，只有最近在人工智能方面取得的进步才使这成为可能，但同时也带来了严重的风险，必须从一开始就认真考虑。

这个「实验性」的服务接受一段视频输入，例如，一段最初用英语录制的在线课程讲解，将演讲转录、翻译、重新生成指定语音（匹配风格和语气），然后编辑视频，使演讲者的嘴唇更加贴合新的音频。

这样看来它基本上就是一个深度伪造生成器。但在其他地方用于恶意目的的技术确实具有真正的效用。实际上，在媒体界有一些公司正在做这样的事情，通过后期制作重新配音。该演示令人印象深刻，但必须说，技术还有很长的路要走。

但这些工具是专业的工具，在严格的媒体工作流程中提供，而不是在 YouTube 上传页面上的选项。通用翻译器也还没有这样做，但如果有一天实现了，谷歌需要考虑它可能被用于制造虚假信息或其他未预料的危险。

Manyika 称这是「大胆和安全之间的紧张关系」，在二者之间找到平衡并不容易。但显然它不能随意发布供任何人使用而没有限制。尽管如此，获得的好处（例如在没有字幕或需要重新录制的情况下提供 20 种语言的在线课程）是不可否认的。

Manyika 说：「这对于提高学习理解水平是一个巨大的进步，我们在课程完成率方面看到了有希望的结果。但存在着原始技术可能被不良行为人滥用创建深度伪造的困境。因此，我们建立了服务的防护栏以防止滥用，并且仅授权给合作伙伴使用。很快，我们将在最新的生成模型中集成新的数字水印创新，以帮助解决错误信息的挑战。」

这当然是一个开始，但我们已经看到那些同样不良行为的人在绕过这样的障碍时能力很高。这些「防护栏」有些含混不清，仅与合作伙伴分享只有在模型不泄漏的情况下才能起作用，而模型往往会泄漏。数字水印技术的确是一个要追求的好方法，但到目前为止，大多数应对数字水印的方法都被像裁剪、调整大小和其他轻微的媒体小编辑操作所击败。

谷歌今天展示了许多人工智能的功能，既有新的，也有熟悉的，但它们是否有用和安全还是一个谜。但让像 Manyika 这样的研究人员在他们举办的最大的活动中获得演示时间，说「哇，这可能有问题，所以我们正在做这个和那个，谁知道它会不会起作用」，至少是一种相当诚实的方式来解决这个问题。

（举报）

谷歌演示「通用翻译器」：AI 重新生成匹配新语言口型的视频

低端显卡登上AI的大船！6GB显存就能生成高质量视频

4月18日！| Meet·未来大课：智变·新生——生成式AI重构商业未来

谷歌Gemini整合Veo 2视频生成模型，8秒720P视频轻松搞定

微软CEO：公司多达 30% 的代码是由 AI 生成的！

可灵AI开启视频生成2.0时代！全球用户数已突破2200万

AI 对谷歌的威胁已然成为现实！

阿里开源通义新模型：指定首尾图片生成视频

时空壶 X1 同声传译器：跨语言沟通的革新力量

简单AI：零门槛AI修图！3分钟免费生成专业级春日写真，摄影师要慌了！

Meta AI眼镜“实时翻译”功能全面开放，不联网也能用！

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

基于安卓16的三星 One UI 8 本月发布首个测试版本

站长商机