Mozilla更新公共语音数据集 包含18种语言共1400小时

2019-03-04 13:23 稿源:手机中国  0条评论

  【CNMO新闻】Mozilla近日发布了最新版本的Common Voice,这是它的开源语音数据转录集,目前包含超过1400个小时的语音样本,由4.2万名贡献者提供18种语言,包括英语、法语、德语、荷兰语、哈卡钦语、世界语、波斯语、巴斯克语、西班牙语、普通话、威尔士语和卡拜尔语。

  Mozilla称,这是同类数据库中最大的多语言数据库之一,大大超过了8个月前向公众开放的普通语音语料库,该语料库包含来自2万名志愿者的500小时(40万段录音)的英语录音。该组织表示,通过共同语音网站和移动应用程序,70种语言的数据收集工作正在积极进行。

  Mozilla表示,在未来的几个月里,他们将尝试不同的方法,通过社区的努力和新的合作伙伴关系来提高数据的数量和质量。该公司表示,计划利用部分录音来开发支持语音的产品,最终的目标则是提供更多更好的语音数据以寻求构建和使用语音技术。

  该公司表示:“Mozilla的目标是建立一个更加多样化和创新的语音技术生态系统,公共语音网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。”

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多

关闭