谷歌最牛语音识别上线：识别80种语言粤语可直转文字

2017-04-21 10:38 · 稿源：站长之家

站长之家(ChinaZ.com) 4 月 21 日消息 号外!号外!谷歌公司最近又推出了不得的黑科技——云端语音识别服务。与其他语音识别不同的是，该服务强大到能够识别全球超过 80 种语言，也就是说，有了它，全球各国的人们基本都可以告别打字，将语音转换为文字。

值得注意的是，该项服务也支持中文，包括繁体中文、粤语、普通话。

据介绍，谷歌的云端语音识别服务采用与Google Now、Google搜寻及Google Assistant相同的语音辨识技术。可以用来执行如影像分析、图像分析、文字分析和动态翻译等常见的任务。

在刚刚上线的正式版本中，谷歌加强了长句子的识别和转换精度，新增支持WAV、Opus和Speex文件格式。而且识别处理速度比旧版快了 3 倍。

据悉，目前已有厂商采用Google云端语音识别API，美国德州的电话语音SaaS开发商InteractiveTel采用Google云端语音识别服务，通过实时的语音转文字，来分析业者与顾客在电话中的互动，以协助业者提升销售业绩。

（举报）

相关推荐

关键词：

即构发布云端实时语音识别服务

ZEGO云端实时语音识别服务针对直播、语聊、在线课堂和会议等场景，提供低延迟（端到端600ms）、高准确率（提升40%）、低成本（节省50%以上）的解决方案。支持30多种语言及方言，适配多厂商接入，具备降噪和回声消除能力。核心应用包括实时字幕和AI观众互动，显著提升用户体验和业务效率，助力企业全球化布局。

实时语音识别语音识别服务音视频场景
微博CEO称iOS 26微信语音没声音网友同样中招以为手机坏了

微博CEO王高飞反映，iOS 26 Beta 1更新后微信语音通话首次接通无声音，需挂断重拨。多名网友反馈相同问题，甚至怀疑手机故障。微博智搜称，这是Beta系统的兼容性缺陷，已提供临时解决方案。iOS 26.1 Beta新增Apple Intelligence多语言支持及AirPods实时翻译功能，电话应用键盘采用全新液态玻璃设计。

iOS26b1 微信语音通话兼容性缺陷
国庆调休iPhone闹钟没响苹果客服回应：目前无法识别调休日需手动设置

苹果闹钟因无法识别调休日再次引发用户吐槽。国庆假期周末调休上班时，闹钟未响导致用户睡过头。苹果客服回应称，闹钟工作日设定为周一至周五，系统暂无法识别调休安排。用户需手动调整或使用第三方软件设置。相比之下，国产安卓手机已支持自动跳过节假日功能。尽管iOS 26升级了闹钟提示时长调节功能，但仍未加入自动识别节假日的优化。网友质疑苹果在基础功能上的滞后，凸显其本土化不足的问题。

苹果闹钟调休日工作日设定
逗哥配音平台：千款AI配音演员覆盖全行业，重新定义语音创作边界

随着内容创作行业蓬勃发展，高质量、多风格的配音需求日益增长。国内领先的AI语音技术平台——逗哥配音，凭借上千款精选音色和全面的行业适配能力，成为众多专业机构和个人创作者的首选方案。平台拥有超千款声音，覆盖不同年龄、声线和风格，可调参数达数十种，实现“千声千面”的语音多样性。其声音资源具备极强的行业适配性，适用于小说、影视解说、新闻播报、课程培训等多种场景，并针对ASMR、角色对话等专项优化。逗哥配音已整合文案提取、视频去水印等工具，打造一站式创作平台，显著提升内容产出效率。未来计划扩大声音库规模，深化垂直行业适配，并开放自定义音色训练功能，推动AI配音从技术辅助逐步进化为创意产业的核心生产力工具。

AI语音技术配音音色行业适配能力
小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio，拥有12亿参数，在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力，通过创新预训练架构和超一亿小时训练数据，成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构，支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本，并在Github开源Tokenizer模型，为研究者和开发者提供完整工具链。

AI语音开源模型少样本学习
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
亚马逊入局竞逐AR眼镜行业，Meta/谷歌/微美全息以“硬件+生态”双赛道策略领先

亚马逊正加速布局AR眼镜市场，开发两款产品：面向物流司机的"Amelia"和面向消费者的"Jayhawk"。科技巨头纷纷入局，Meta、谷歌、苹果等均在研发相关产品。中国消费级AR眼镜市场2025年上半年增长显著，销量达26.2万台，同比增长73%。行业预计未来三年规模有望达千亿级别，AR眼镜正从"小众玩具"迈向"大众智能终端"。

AR眼镜亚马逊科技巨头
荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端语音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

AI 语音大模型小米开源
雷猴啊！Siri语音识别新增粤语支持

HomePod15.6新增对中文普通话、粤语和日语的Siri语音识别支持...

苹果
非洲女孩被AI识别出黑眼圈网友：AI一视同仁

9月10日，在上海外滩大会的热闹现场，一场关于AI测肤质的体验活动吸引了众多目光。其中，一位黑人女孩的体验过程尤为引人注目，她在使用AI测肤质功能后，竟被提示存在黑眼圈问题，需关注眼部皮肤状态及保养，这一结果瞬间引发了现场围观和网友热议。据现场工作人员介绍，该AI测肤质功能通过先进的技术分析皮肤状况，不受肤色影响。当黑人女孩完成测试后，AI系�

AI测肤质黑人女孩黑眼圈

今日大家都在搜的词：

热文

3 天
7天

谷歌最牛语音识别上线：识别80种语言粤语可直转文字

即构发布云端实时语音识别服务

微博CEO称iOS 26微信语音没声音网友同样中招以为手机坏了

国庆调休iPhone闹钟没响苹果客服回应：目前无法识别调休日需手动设置

逗哥配音平台：千款AI配音演员覆盖全行业，重新定义语音创作边界

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

亚马逊入局竞逐AR眼镜行业，Meta/谷歌/微美全息以“硬件+生态”双赛道策略领先

荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

雷猴啊！Siri语音识别新增粤语支持

非洲女孩被AI识别出黑眼圈网友：AI一视同仁

今日大家都在搜的词：

热文

比特币价格突破12.5万美元刷新历史最高纪录

腾讯混元图像3.0登顶LMArena榜一

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

马斯克个人财富达5000亿美元特斯拉市值飙升助力

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

站长商机

谷歌最牛语音识别上线：识别80种语言 粤语可直转文字

今日大家都在搜的词：

热文

站长商机

谷歌最牛语音识别上线：识别80种语言粤语可直转文字