首页 > 外闻 > 关键词  > 谷歌最新资讯  > 正文

谷歌最牛语音识别上线:识别80种语言 粤语可直转文字

2017-04-21 10:38 · 稿源:站长之家

站长之家(ChinaZ.com) 4 月 21 日消息 号外!号外!谷歌公司最近又推出了不得的黑科技——云端语音识别服务。与其他语音识别不同的是,该服务强大到能够识别全球超过 80 种语言,也就是说,有了它,全球各国的人们基本都可以告别打字,将语音转换为文字。

值得注意的是,该项服务也支持中文,包括繁体中文、粤语、普通话。

据介绍,谷歌的云端语音识别服务采用与Google Now、Google搜寻及Google Assistant相同的语音辨识技术。可以用来执行如影像分析、图像分析、文字分析和动态翻译等常见的任务。

在刚刚上线的正式版本中,谷歌加强了长句子的识别和转换精度,新增支持WAV、Opus和Speex文件格式。而且识别处理速度比旧版快了 3 倍。

据悉,目前已有厂商采用Google云端语音识别API,美国德州的电话语音SaaS开发商InteractiveTel采用Google云端语音识别服务,通过实时的语音转文字,来分析业者与顾客在电话中的互动,以协助业者提升销售业绩。

举报

  • 相关推荐
  • 大家在看
  • 科大讯飞墨水屏平板:录音转文字让会议记录更高效

    录音转文字技术是一种将语音转换为文字的自动化技术。该技术的发展历程可以追溯到20世纪50年代的语音识别技术。当时,科学家们开始研究如何将人类语音转换为电子信号,进而转换为可编辑的文字。进入21世纪后,随着深度学习和神经网络技术的快速发展,录音转文字技术取得了突破性进展。基于深度学习的录音转文字系统在各种场景下的识别准确率已经超过了人类水平。现在,录音转文字技术已经被广泛应用于各种领域,如医疗、金融、法律、教育等。尤其是在远程工作和会议记录中,录音转文字技术发挥着重要作用。它可以帮助人们更准确地记录会议

  • 离线语音500ms识别速度,极越01预售25.99万元起

    智能电动化时代,从来不缺智能电动汽车,稀有的一直都是拥有高阶智能、硬核实力、合理价格,并且可以做到科技平权的智慧“新物种”。放眼当下汽车市场,这样的车真的存在吗?面对这样一台汽车机器人,你准备好和它一起开启未来AI出行生活了吗?

  • 澳大利亚警方运用AI分析数据 识别洗钱和诈骗活动

    澳大利亚联邦警察最近宣布,他们正在运用人工智能技术分析监视许可数据,旨在帮助识别潜在的洗钱和欺诈活动。尽管他们的AI使用迄今有限,但AFP表示,他们希望这项技术将有助于改进警务工作。他们强调无论是内部工具还是商业产品,都会确保数据得到保护,不会进入公共数据集,以保护隐私和敏感信息。

  • 美图上线“AI字画”功能 可将文字巧妙隐藏进图片中

    美图设计室上线“AI字画”功能,用户输入文字后,可通过美图AI技术将文字巧妙地隐藏到图片中。该功能主要面向生活场景的大众用户及社交媒体中的营销人员,可以通过“AI字画”功能来开拓社交媒体的创新玩法,也可以对自己的壁纸、头像等进行内容升级。可以将自己的名字融入星空或山谷等场景。

  • ElevenLabs推AI工具“AI Dubbing”,可将语音翻译成20多种语言

    美国初创公司ElevenLabs日前推出了一款名为“AIDubbing”的产品,该产品可以将任何语音内容翻译成20多种不同的语言。这一工具面向所有平台用户开放,被视为是改变语音配音领域的创新之举。AI配音工具的出现无疑为这个市场带来了更多可能性。

  • 迪士尼新玩具疑从199元炒到8000元 客服:黄炒作

    上海迪士尼度假区官方微博宣布,从9月26日开始,“米奇和朋友们系列”商品将推出新品。高飞的新款“紫色的飞龙”服饰商品,包括钥匙扣、玩偶等,受到了许多粉丝的喜爱,有人称之为“紫龙高飞”。对于“紫龙高飞”商品难以买到的问题,该客服说,“这是昨天刚推出的,目前可能供不应求,可以稍后再去看看会有新的货源。

  • 谷歌、CMU研究表明:语言模型通过使用良好的视觉tokenizer首次击败了扩散模型

    来自谷歌、CMU的研究发现,语言模型在图像、视频生成领域的性能一直不如扩散模型,主要原因是缺乏有效的视觉表示。通过引入一种名为MAGVIT-v2的视频tokenizer,采用无查找量化和增强功能的设计,研究者成功改进了图像和视频生成的质量,超越了现有技术。通过这一研究,我们可以看到语言模型在视觉生成领域的潜力,以及如何通过创新的设计和改进来实现更好的性能。

  • Digimarc推出版权识别技术 AI可避开受保护资料训练

    软件公司Digimarc推出了一项新的技术DigimarcValidate,允许内容版权持有者在数字资产中嵌入版权归属信息,以便AI模型训练时能识别哪些内容受版权保护、不应擅自使用。Digimarc表示,新的DigimarcValidate服务能在数字内容的元数据中加入版权归属标识。正当GENERATEDAI引发争议之际,DigimarcValidate或可约束AI训练行为,让数字资产版权受到应有尊重。

  • 抖音上线地方方言自动翻译功能 由多语言翻译模型等提供支持

    抖音宣布正式上线地方方言自动翻译功能。创作者可以使用该功能,“一键”将多种方言视频转化出普通话字幕,方便公众观看。本次上线的地方方言自动识别及翻译功能由火山引擎技术团队提供技术支持,采用了自研的自监督预训练模型和多语言翻译模型,实现了极少量标注数据条件下识别方言的能力,且训练效率提升一倍,有效有效提升了多语言翻译的性能,同时大幅降低了模型训练的资源消耗。

  • 苹果iPhone 15新功能上线:充电上限设置80%

    苹果在iPhone15和iPhone15Pro机型中引入了全新的电池健康设备,允许用户在日常充电时将充电上限设置为80%。这一功能在“设置”→“电池”→“电池健康与充电”→“充电优化”下有三个选项:优化电池充电、不优化和80%限制。iPhone15机型在“设置”-“通用”-“关于本机”界面可以看到手机电池的生产日期、初次使用时间以及循环次数。

  • Arteus AI:AI生成图像

    Arteus AI Image Generator是一款由Arteus AI开发的尖端工具,利用先进的人工智能技术从文本提示中创建图像。只需描述您想生成的内容,Arteus AI就能产生出来。该工具采用了生成对抗网络(GANs)或变分自编码器(VAEs)等复杂的深度学习算法,通过学习数据集中的模式并根据输入参数生成图像,从而确保高质量输出。Arteus AI Image Generator非常灵活,可以创建各种类型的图像,包括逼真的照片、抽象艺术、风景、肖像等。用户可以通过调整参数或提供具体指令来定制生成的图像。

  • ApyHub AI APIs:强大的开发者和团队实用API

    ApyHub是一个拥有100多个API的目录,从简单的工具到复杂的AI解决方案。找到、测试和管理最适合您应用程序的API。

  • SumyAI:视频摘要工具

    SumyAI是一款AI驱动的视频摘要工具,可以将冗长的视频压缩成关键要点,以便更快地吸收,节省时间并增强记忆力。定价:免费试用。

  • AI Girlfriend Emma:与AI女友Emma一起享受甜蜜时光

    AI女友Emma是一个可以与你进行交流的虚拟伴侣。她可以陪伴你聊天,提供情感支持和娱乐,为你带来温暖和快乐。免费用户每周可以发送30条消息,付费用户享受无限制的沟通。价格为1.99美元/周。

  • Emplibot:WordPress自动博客写作AI工具

    Emplibot是一个自动将高质量文章发布到WordPress博客的AI工具。它通过进行关键词研究、插入图片和内部链接等方式,自动完成文章的生成。它能为您的目标用户量身定制内容,提升博客的SEO效果,促进业务增长。

  • DocTranslator:AI 文件翻译工具

    DocTranslator 是世界上最好的 AI 翻译工具,支持超过 100 种语言,可快速翻译大型 PDF、Word、Excel、PPT 文件。提供免费试用计划和存储计划,支持 MS Word、Excel 和 PDF 格式,保留原始格式和布局。价格从 0.005 美元 / 单词起,满足各种用户需求。

  • sourcenext:梦幻 AI 翻译机

    ポケトーク是一款梦幻的 AI 翻译机,可以让无法交流的人进行对话,具有高度实用性和便携性,是旅行、商务等场景的理想助手。

  • chichi-pui:AI 画像专用的投稿和生成网站

    chichi-pui(ちちぷい)是一家 AI 画像专用的投稿和生成网站,用户可以在此分享和生成 AI 插画、AI 照片等作品。该网站拥有丰富的 AI 画像投稿和生成内容,适合对 AI 艺术感兴趣的用户使用。用户可在网站上参与不同的活动和投稿企划,与其他用户分享作品并获取灵感。

  • Al Comic Factory:自动生成有情感、有故事性的漫画内容

    Al Comic Factory利用大型语言模型和SDXL技术自动生成有情感、有故事性的漫画内容。用户只需提供简单文本提示,AI Comic Factory即可生成包含人物对话和场景描述的漫画。支持多种配置、用户交互、多语言内容创建、批量生成漫画变体等功能。

  • Chatmind AI:AI 原生思维导图在线工具

    Chatmind 是一款由 Xmind 团队推出的免费在线 AI 思维导图和头脑风暴工具,通过 ChatGPT 技术,帮助用户在几分钟内创建思维导图。用户可以通过简单的文本描述生成思维导图,快速总结文档或 URL 链接为思维导图,与 AI 对话产生创意并整合到思维导图中,描述文本即可立即生成图像,轻松为任何主题创建视觉内容,自动保存文件历史以便跨设备访问,编辑文本和重新排列主题轻松自如,将思维导图转化为幻灯片展示只需一键,轻松以多种格式分享思维导图。

  • Scribble Diffusion:将您的草图转化为精致图像

    Scribble Diffusion利用人工智能将您的草图转化为精致图像。用户可以上传草图并获得优化后的图像。产品定位为为用户提供便捷的图像处理功能,提升设计效率。

  • Sider:AI 助手,集成多功能 AI 工具

    Sider 是一款 AI 助手,集成了 ChatGPT 3.5/4、Gemini 和 Claude 等多功能 AI 工具,能够帮助用户进行聊天、写作、阅读、翻译、解释、图像测试等操作。用户可在任何网页上使用 Sider,提供强大的 AI 支持。

  • joyland:沉浸式 AI 聊天平台,创造自己的冒险!

    joyland是一个沉浸式 AI 聊天平台,用户可以在其中进行基于角色的对话,创造自己的冒险故事。通过与虚拟角色互动,用户可以逃离现实生活的平凡,沉浸于充满乐趣和想象力的互动体验中。乐园的定价灵活多样,适合不同用户需求。

  • Charstar AI:虚拟 AI 角色交流平台

    Charstar AI 是一个基于最新开源 AI 技术支持的虚拟角色交流平台,用户可以与各种虚拟 AI 角色进行互动、发现新角色,并探索其潜在故事。通过与虚拟角色聊天,用户可以体验到独特的交流方式,为用户提供全新的虚拟角色交互体验。

  • FakeYou:深度伪造文本到语音生成器

    FakeYou Celebrity Voice Generator 是一款利用深度伪造技术生成喜爱角色说任何你想说的话的文本到语音生成器。用户可以免费使用该工具来创作独特的声音内容。

  • The StoryGraph:根据您的心情和偏好追踪和选择书籍。

    The StoryGraph 是一个帮助用户跟踪阅读进度并选择下一本书的平台。用户可以免费使用大部分功能,也提供付费的 Plus 计划获得更加个性化的体验。由 Nadia Odunayo 和 Rob Frelow 创办,始于 Nadia 的个人项目,致力于帮助用户管理阅读列表。用户可以在 App Store 和 Play Store 下载 The StoryGraph 的移动应用,并从 Goodreads 导入阅读数据。

  • Happy Scribe:音频转文字及视频字幕服务

    Happy Scribe 提供自动和人工转录服务,将音频转换为文本,准确率达到 85-99%,支持 120 多种语言和 45 多种格式。定位于为用户提供高效的音视频转录及字幕服务。

  • Product Hunt:发现科技领域最佳新品AI产品

    Product Hunt 是每天最佳新品的精选。发现最新的移动应用程序、网站和技术产品,人人都在谈论。

  • JanitorAI:NSFW虚构聊天机器人角色

    JanitorAI 是一个集合了各种有趣的聊天机器人的平台,用户可以与各种不同性格和故事背景的虚拟角色进行互动。平台定位于提供娱乐和交流的虚拟角色体验。用户可以选择不同的角色与之互动,体验多样化的聊天和故事情节。平台允许用户创建具有不同个性的NSFW虚构聊天机器人角色。该平台由大型语言模型驱动,包括OpenAI的GPT模型。

  • ComfyUI-SuperBeasts:用于增强图像动态范围和视觉吸引力的图像处理应用程序

    ComfyUI-SuperBeasts是一款用于增强图像动态范围和视觉吸引力的图像处理应用程序。它提供了一组可调整的参数,用于根据用户偏好微调HDR效果。该应用程序具有以下特点:调整阴影、高光和整体HDR效果的强度;应用伽马校正以控制整体亮度和对比度;增强对比度和色彩饱和度,使结果更加生动;通过在LAB颜色空间处理图像来保留颜色准确性;利用基于亮度的掩码进行针对性调整;将调整后的亮度与原始亮度进行混合,以实现平衡效果。

今日大家都在搜的词: