谷歌研究团队宣布 AudioPaLM：一个能说能听的大型语言模型

2023-06-25 11:37 · 稿源：站长之家

站长之家(ChinaZ.com) 6月25日消息: 大型语言模型（LLMs）近几个月一直备受关注。作为人工智能领域最重要的进展之一，这些模型正在改变人机交互的方式。随着各行各业纷纷采用这些模型，它们成为人工智能在全球蔓延的最佳例证。

谷歌，google

LLMs 在处理复杂交互和知识检索任务时表现出色，其中最著名的例子是由 OpenAI 开发的 ChatGPT 聊天机器人，它基于 GPT 3.5 和 GPT 4 的 Transformer 架构。除了文本生成外，还开发了像 CLIP（对比性语言图像预训练）这样的模型，用于图像生成，使得可以根据图像的内容生成文本。

为了在音频生成和理解方面取得进展，Google 的研究团队推出了 AudioPaLM，这是一个大型语言模型，可以处理语音理解和生成任务。AudioPaLM 结合了两个现有模型的优势，即 PaLM-2 模型和 AudioLM 模型，以产生一个统一的多模态架构，能够处理和生成文本和语音。这使得 AudioPaLM 可以处理各种应用，从语音识别到语音转文字。

虽然 AudioLM 在保持诸如说话者身份和语气信息方面表现出色，而以文本为基础的语言模型 PaLM-2 则专注于特定于文本的语言知识。通过结合这两个模型，AudioPaLM 利用了 PaLM-2 的语言专业知识和 AudioLM 的附加语言信息保存能力，从而更全面地理解和生成文本和语音。

AudioPaLM 使用一个联合词汇表，可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合，可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。

经过评估，AudioPaLM 在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力，也就是说，它可以准确地将从未遇到过的语言的语音翻译成文本，为更广泛的语言支持开辟了可能性。

AudioPaLM 还可以基于简短的口语提示在语言之间进行声音转换，并能捕捉并重现不同语言中的独特声音，实现语音转换和适应。

团队提到的 AudioPaLM 主要贡献包括：

AudioPaLM 利用了文本预训练模型 PaLM 和 PaLM-2 的功能。
在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果，并在自动语音识别基准测试中具有竞争力的表现。
该模型通过语音转换来进行声音转换，超越了现有方法在语音质量和声音保留方面的表现。
AudioPaLM 通过使用未见过的语言组合进行自动语音翻译，展示了零样本功能。

总而言之，AudioPaLM 是一个统一的大型语言模型，通过利用基于文本的语言模型的能力和整合音频提示技术，可以同时处理语音和文本，成为 LLM 列表中强有力的补充。

AudioPaLM Hugging Face 页面：https://huggingface.co/papers/2306.12925

（举报）

相关推荐

关键词：

“人工智能+”时代，企业做对什么才能抢占先机？

国务院8月26日发布《关于深入实施“人工智能+”行动的意见》，提出加快AI技术与实体经济深度融合，推动产业智能化升级。到2035年，我国将全面步入智能经济和社会新阶段。金蝶集团作为企业数字化服务商，以“AI优先”为战略，将AI技术深度融入SaaS产品与服务，推出金蝶云·星空EMA平台及多款智能产品，覆盖财务、供应链、差旅等场景，助力企业构建“AI+业务”新能力，实现高效管理与创新发展。

人工智能数字化转型产业智能化
荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价
腾讯云安全发布人工智能风险评估框架，助企业构建可信智能体

9月17日，腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施，系统性应对AI应用全生命周期的安全挑战，包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品，构建覆盖研发、部署、运维的全链路防护体系，助力企业建立可信、稳定的AI服务生态。

AI安全智能体安全风险评估
2025 世界设计之都大会“创意可计算性：设计人工智能”，特赞升级五大内容+AI解决方案

2025年9月25日至28日，上海将举办世界设计之都大会（WDCC2025），主题为“设计无界，生生不息”。大会聚焦人工智能赋能设计创新，探讨设计如何驱动产业与城市可持续发展。特赞科技作为内容与AI领域代表企业，将展示“计算×创意”如何拓展设计生命力，包括跨行业赋能、产教融合及人机协作三大板块，呈现AI在打破学科边界、推动产业创新中的实践。WDCC2025旨在为全球设计领域注入新动能，构建“设计×科技×可持续”的新想象空间。

世界设计之都大会设计无界设计人工智能
每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

9月17日，2025年国家网络安全宣传周人工智能安全治理分论坛在昆明召开，会上正式发布《人工智能安全行业自律倡议》。该倡议由中国网络空间安全协会联合多家科研院所、互联网头部企业、网络安全厂商及人工智能企业共同发起，提出筑牢安全根基、强化技管结合、深化协同共治等七方面共识，旨在推动构建可控、可信、可靠的人工智能产业生态，为全球人工智能治理贡献中国智慧。

人工智能安全行业自律倡议网络安全
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
马斯克：Grok 5模型有望实现通用人工智能的突破

马斯克旗下xAI公司正研发Grok 5模型，有望实现通用人工智能（AGI）重大突破。该模型采用全新架构设计，预计未来几周启动训练。若成功将代表AI从专用领域向通用认知能力的质的飞跃，被视为人工智能发展的终极目标。科技界密切关注xAI能否在激烈竞争的大模型赛道实现突破。

Grok 5 AGI
十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

国务院印发《关于深入实施“人工智能+”行动的意见》，推动AI技术与产业深度融合。深圳企业十方融海凭借AI大模型研发、产品创新及开源生态构建等领域的卓越实践，成为行业先锋。其开源模型如OpenBuddy、小智AI等突破传统技术局限，实现多模态交互与跨领域知识融合，覆盖教育、办公、养老、文体等多元场景。通过开放共享模式，十方融海有效降低AI应用门槛，激发行业创新活力，助力我国人工智能产业迈向新征程。

人工智能政策引领 AI大模型
华为MatePad mini劲敌！苹果iPad mini 8要来了：A19 Pro+OLED屏

苹果iPad mini系列称霸了多年的小平板，这两年迎来了很多新玩家的挑战，前不久发布的华为MatePad mini就是最具竞争力的一款，凭借着超轻薄、SIM卡等配置收到很多用户青睐。现在苹果的新一代应战者iPad mini 8也要来了，新品将会在明年上半年发布，起售价维持在499美元。根据泄露的代码显示，iPad Mini 8（代号J510/J511）预计搭载A19 Pro芯片，大概率是与iPhone Air同款的阉割版

iPad mini 8
荐AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Gaga AI发布；vivo蓝心3B端侧大模型发布

本文汇总AI领域最新动态：美图通过组织变革推动AI应用RoboNeo月活破百万；vivo发布蓝心3B端侧大模型，性能超越8B模型；Gaga AI实现静态照片生成60秒电影级视频；ChatGPT周活用户突破8亿；Figma引入Gemini模型提升设计效率；印度试点AI聊天机器人购物；Figure AI推出第三代家用机器人Figure 03；谷歌推出Gemini Enterprise自动化工作流平台。显示AI正从工具向创作者跃升，加速渗透各行业。

AI原生美图RoboNeo MAU破百万

今日大家都在搜的词：

热文

3 天
7天

谷歌研究团队宣布 AudioPaLM：一个能说能听的大型语言模型

“人工智能+”时代，企业做对什么才能抢占先机？

荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

腾讯云安全发布人工智能风险评估框架，助企业构建可信智能体

2025 世界设计之都大会“创意可计算性：设计人工智能”，特赞升级五大内容+AI解决方案

每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

马斯克：Grok 5模型有望实现通用人工智能的突破

十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

华为MatePad mini劲敌！苹果iPad mini 8要来了：A19 Pro+OLED屏

荐AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Gaga AI发布；vivo蓝心3B端侧大模型发布

今日大家都在搜的词：

热文

网易云音乐回应登入李玟账号：已与网友新手机号解绑

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

11月开启！vivo OriginOS 6公测适配计划公布

努比亚Z80 Ultra官宣10月22日发布搭载无孔真全面屏

雷军回应小米手机登顶黄金周销量第一：非常了不起

AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机

小米15 Ultra官宣直降500元：售价5999元起

影视飓风tim称3年后想拿奥斯卡梦想是上火星

折叠屏iPhone 18 Fold细节曝光：铝钛混合机身展开仅4.5mm

网易云音乐回应登入李玟账号：已与网友新手机号解绑

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

雷军：小米17系列首销权益延续至10月31日

京东双11今晚开启：现货开卖官方直降低至一折

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

影视飓风Tim送罗永浩顶配iPhone17ProMax 后者锐评：越做越难看

AI日报：美图RoboNeo上线首月MAU破百万；影视级音画同步模型Ga

新款智界R7/S7上市44天大定破38000台

站长商机