首页 > 外闻 > 关键词  > 谷歌最新资讯  > 正文

谷歌最牛语音识别上线:识别80种语言 粤语可直转文字

2017-04-21 10:38 · 稿源:站长之家

站长之家(ChinaZ.com) 4 月 21 日消息 号外!号外!谷歌公司最近又推出了不得的黑科技——云端语音识别服务。与其他语音识别不同的是,该服务强大到能够识别全球超过 80 种语言,也就是说,有了它,全球各国的人们基本都可以告别打字,将语音转换为文字。

值得注意的是,该项服务也支持中文,包括繁体中文、粤语、普通话。

据介绍,谷歌的云端语音识别服务采用与Google Now、Google搜寻及Google Assistant相同的语音辨识技术。可以用来执行如影像分析、图像分析、文字分析和动态翻译等常见的任务。

在刚刚上线的正式版本中,谷歌加强了长句子的识别和转换精度,新增支持WAV、Opus和Speex文件格式。而且识别处理速度比旧版快了 3 倍。

据悉,目前已有厂商采用Google云端语音识别API,美国德州的电话语音SaaS开发商InteractiveTel采用Google云端语音识别服务,通过实时的语音转文字,来分析业者与顾客在电话中的互动,以协助业者提升销售业绩。

举报

  • 相关推荐
  • 大家在看
  • 科大讯飞墨水屏平板:录音转文字让会议记录更高效

    录音转文字技术是一种将语音转换为文字的自动化技术。该技术的发展历程可以追溯到20世纪50年代的语音识别技术。当时,科学家们开始研究如何将人类语音转换为电子信号,进而转换为可编辑的文字。进入21世纪后,随着深度学习和神经网络技术的快速发展,录音转文字技术取得了突破性进展。基于深度学习的录音转文字系统在各种场景下的识别准确率已经超过了人类水平。现在,录音转文字技术已经被广泛应用于各种领域,如医疗、金融、法律、教育等。尤其是在远程工作和会议记录中,录音转文字技术发挥着重要作用。它可以帮助人们更准确地记录会议

  • 离线语音500ms识别速度,极越01预售25.99万元起

    智能电动化时代,从来不缺智能电动汽车,稀有的一直都是拥有高阶智能、硬核实力、合理价格,并且可以做到科技平权的智慧“新物种”。放眼当下汽车市场,这样的车真的存在吗?面对这样一台汽车机器人,你准备好和它一起开启未来AI出行生活了吗?

  • 澳大利亚警方运用AI分析数据 识别洗钱和诈骗活动

    澳大利亚联邦警察最近宣布,他们正在运用人工智能技术分析监视许可数据,旨在帮助识别潜在的洗钱和欺诈活动。尽管他们的AI使用迄今有限,但AFP表示,他们希望这项技术将有助于改进警务工作。他们强调无论是内部工具还是商业产品,都会确保数据得到保护,不会进入公共数据集,以保护隐私和敏感信息。

  • 美图上线“AI字画”功能 可将文字巧妙隐藏进图片中

    美图设计室上线“AI字画”功能,用户输入文字后,可通过美图AI技术将文字巧妙地隐藏到图片中。该功能主要面向生活场景的大众用户及社交媒体中的营销人员,可以通过“AI字画”功能来开拓社交媒体的创新玩法,也可以对自己的壁纸、头像等进行内容升级。可以将自己的名字融入星空或山谷等场景。

  • ElevenLabs推AI工具“AI Dubbing”,可将语音翻译成20多种语言

    美国初创公司ElevenLabs日前推出了一款名为“AIDubbing”的产品,该产品可以将任何语音内容翻译成20多种不同的语言。这一工具面向所有平台用户开放,被视为是改变语音配音领域的创新之举。AI配音工具的出现无疑为这个市场带来了更多可能性。

  • 迪士尼新玩具疑从199元炒到8000元 客服:黄炒作

    上海迪士尼度假区官方微博宣布,从9月26日开始,“米奇和朋友们系列”商品将推出新品。高飞的新款“紫色的飞龙”服饰商品,包括钥匙扣、玩偶等,受到了许多粉丝的喜爱,有人称之为“紫龙高飞”。对于“紫龙高飞”商品难以买到的问题,该客服说,“这是昨天刚推出的,目前可能供不应求,可以稍后再去看看会有新的货源。

  • 谷歌、CMU研究表明:语言模型通过使用良好的视觉tokenizer首次击败了扩散模型

    来自谷歌、CMU的研究发现,语言模型在图像、视频生成领域的性能一直不如扩散模型,主要原因是缺乏有效的视觉表示。通过引入一种名为MAGVIT-v2的视频tokenizer,采用无查找量化和增强功能的设计,研究者成功改进了图像和视频生成的质量,超越了现有技术。通过这一研究,我们可以看到语言模型在视觉生成领域的潜力,以及如何通过创新的设计和改进来实现更好的性能。

  • Digimarc推出版权识别技术 AI可避开受保护资料训练

    软件公司Digimarc推出了一项新的技术DigimarcValidate,允许内容版权持有者在数字资产中嵌入版权归属信息,以便AI模型训练时能识别哪些内容受版权保护、不应擅自使用。Digimarc表示,新的DigimarcValidate服务能在数字内容的元数据中加入版权归属标识。正当GENERATEDAI引发争议之际,DigimarcValidate或可约束AI训练行为,让数字资产版权受到应有尊重。

  • 抖音上线地方方言自动翻译功能 由多语言翻译模型等提供支持

    抖音宣布正式上线地方方言自动翻译功能。创作者可以使用该功能,“一键”将多种方言视频转化出普通话字幕,方便公众观看。本次上线的地方方言自动识别及翻译功能由火山引擎技术团队提供技术支持,采用了自研的自监督预训练模型和多语言翻译模型,实现了极少量标注数据条件下识别方言的能力,且训练效率提升一倍,有效有效提升了多语言翻译的性能,同时大幅降低了模型训练的资源消耗。

  • 苹果iPhone 15新功能上线:充电上限设置80%

    苹果在iPhone15和iPhone15Pro机型中引入了全新的电池健康设备,允许用户在日常充电时将充电上限设置为80%。这一功能在“设置”→“电池”→“电池健康与充电”→“充电优化”下有三个选项:优化电池充电、不优化和80%限制。iPhone15机型在“设置”-“通用”-“关于本机”界面可以看到手机电池的生产日期、初次使用时间以及循环次数。

今日大家都在搜的词: