首页 > AI头条  > 正文

谷歌Gemini Live语音大升级!语速随心调、口音任你选,ChatGPT语音模式遭遇最强挑战

2025-11-13 11:34 · 来源: AIbase基地

AI语音交互正式迈入“拟人化2.0”时代。谷歌于今日全面推送Gemini Live语音功能重磅更新,凭借实时语速调节、情绪化语气响应、个性口音切换、无障碍优化与多模态深度整合五大核心能力,将AI对话从“能听会说”推向“懂你所想、如你所愿”的新高度。此举被广泛视为对OpenAI ChatGPT语音模式的精准打击——当ChatGPT还在解决“是否连贯”时,Gemini已开始模拟“人类说话的呼吸与节奏”。

五大功能,让AI“像人一样说话”

语速随口令实时变化:用户一句“讲快一点,我要赶去上课”,Gemini Live即刻切换至加速模式;甚至可指令“10倍速陪我练口语”,实现个性化语言训练。

情绪感知,语气自适应:当检测到用户语调焦虑或话题敏感(如心理健康),AI自动转为舒缓、平稳的语速与声线,避免机械冷漠。

口音个性注入,对话更有趣:支持牛仔腔、伦敦腔、复古播音腔等风格化语音,让点餐建议或故事讲述充满戏剧张力。

无障碍体验升级:语速、停顿、节奏专为听障用户优化,确保信息可被轻松捕捉与理解。

无缝融入Google生态:在Maps中免唤醒查询“附近充电桩”,抬腕靠近Pixel Watch即可“无声启动”对话,真正实现“AI无感嵌入生活”。

此次升级基于Gemini2.5Flash模型的语音引擎深度优化,显著提升对语调、重音、停顿与音高微变的建模能力,使AI不仅“说对内容”,更“说对感觉”。

直击ChatGPT软肋,重塑语音竞争格局

尽管OpenAI的ChatGPT语音模式已支持实时对话,但其缺乏动态调节能力,长时间交互易显单调。Gemini Live则通过用户主导+AI自适应的双轮驱动,实现高度个性化体验。尤其在教育、导航、语言学习等场景,其“可变速+可变调”特性形成显著优势——学生可加速听讲、司机可慢速确认路线、语言学习者可定制母语者语速循环练习。

技术温情背后,挑战仍存

业内专家指出,拟人化语音虽提升体验,但也带来新风险:过度拟真可能诱发情感依赖,口音模拟或隐含文化刻板印象,而实时语音处理对隐私保护提出更高要求。谷歌强调,所有语音数据默认不存储,用户可随时关闭个性化设置。

AIbase认为,Gemini Live的升级标志着AI语音正从“工具属性”转向“关系属性”——它不再只是执行指令的助手,而是能共情、会调节、有性格的对话伙伴。当AI开始“用你习惯的方式说话”,人机信任的基石,才真正筑牢。而这场由谷歌点燃的“真人语音”竞赛,或将重新定义下一代智能交互的标准。

  • 相关推荐
  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • Mini LED时代即将终结!MacBook Pro将升级为OLED屏

    苹果爆料人Mark Gurman透露,MacBook Pro会率先升级OLED,时间是明年下半年,然后MacBook Air再跟进OLED,时间是2028年,届时MacBook Pro和MacBook Air都将全面迈入OLED时代。 Mark Gurman指出,苹果旗下的iPad系列、MacBook机型全部都将启用OLED屏幕,包括iPad mini、MacBook Pro、iPad Air和MacBook Air,且大概率会按此顺序推进。PS:入门款iPad暂无搭载OLED的计划。 值得注意的是,MacBo

  • 中国移动北斗卫星短信业务升级:支持文字+图片+语音

    中国移动宣布北斗短信息服务完成重大升级,新增图片、语音等富媒体功能,文本传输能力显著提升,单条消息可发送40个汉字、接收达10个汉字。Redmi Note 15 Pro+卫星消息版率先支持升级,其他品牌终端也将陆续开启。此次升级在无地面网络信号时仍能通过多种形式传递信息,为户外探险、应急救援等场景提供坚实通信保障,标志着北斗通信正式步入“视听兼具”新时代。

  • 海量音色AI赋能,逗哥配音重塑语音创作新体验

    逗哥配音作为领先AI配音平台,以“海量音色+AI赋能”为核心,拥有上千款声音类型,覆盖多语言及商业场景。通过自研大模型韵律技术,实现情感饱满的语音生成,支持影音解说、小说推文等多种需求。平台内置场景化音色模板,新手也能快速制作专业配音,免费功能已满足日常短视频创作。其AI分角功能优化多人角色管理,提升对话内容制作效率。逗哥配音正重塑语音创作边界,成为短视频解说领域首选工具。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

今日大家都在搜的词: