首页 > 业界 > 关键词  > WhisperSpeech最新资讯  > 正文

开源文本到语音系统WhisperSpeech 通过反向工程实现

2024-01-22 11:38 · 稿源:站长之家

站长之家(ChinaZ.com)1月22日 消息:WhisperSpeech是一个开源的文本到语音系统,其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程,实现了接收文本输入,并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。

image.png

体验地址:https://top.aibase.com/tool/whisper-speech

目前,WhisperSpeech模型是在英语LibreLight数据集上训练的,但下一个版本的目标是多种语言(Whisper和EnCodec都是多语言的)。系统还可以在单个句子中混合多种语言,并且增加了测试语音克隆的简便方法。

WhisperSpeech 项目路线图:

-声学标记提取:改进声学标记的提取过程。

-语义标记提取:使用Whisper模型生成和量化语义标记。

-S->A模型转换:开发将语义标记转换为声学标记的模型。

-T->S模型转换:实现从文本标记到语义标记的转换。

-提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。

-短句推理优化:改善系统处理短句的能力。

-扩展情感语音数据集:收集更大的情感语音数据。

-文档化LibriLight数据集:详细记录HuggingFace上的数据集。

-多语言语音收集:聚集社区资源,收集多种语言的语音。

-训练多语言模型:开发支持多语言的文本到语音模型。

举报

  • 相关推荐
  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • 快手向量化引擎Auron 正式加入Apache孵化器

    快手开源的向量化引擎Auron(原Blaze项目)正式进入Apache孵化器,标志着项目发展的重要里程碑。Auron基于Rust开发,采用原生执行和向量化技术,相比Spark性能提升2倍以上,已在快手内部大规模应用并获多家企业采用。项目开源后社区活跃,未来将依托ASF开源治理模式,融入全球开源生态,获得更可持续的创新动能与影响力。

  • 手游市场将迎新爆点 Appcharge亚太区副总裁Andrew Wong给出了新方向

    美国法院裁决苹果开放App内第三方支付,为手游行业带来变革。AppCharge作为欧洲支付服务商,凭借双平台覆盖、低抽成和合规优势,帮助厂商抓住支付红利。其“一点即付”技术提升用户体验,支持快速接入,助力中小厂商出海。未来全球应用商店开放第三方支付趋势明显,提前布局者将抢占先机。

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • 苹果首款折叠iPhone细节曝光:支持eSIM、Touch ID回归

    日前,知名科技记者马克古尔曼(Mark Gurman)曝光苹果首款折叠iPhone更多细节。 古尔曼透露,苹果折叠iPhone将配备四颗镜头,分别是外屏前摄、内屏前摄,以及两颗后摄。 另外,新款iPad Air、iPad mini和入门级iPad机型均配备了Touch ID电源键,这一功能可能会延续到折叠iPhone上,而非目前iPhone所使用的面部识别(Face ID)技术。

  • 甲亢哥在美国疑因涉嫌超速被捕 被戴上手铐大声喊冤“Speed只是我的名字”

    近日,千万网红甲亢哥在美国正直播时,疑因涉嫌超速被捕。 据报道,事发时,甲亢哥正在佛罗里达州直播,他被捕全程被观众目睹。 据视频画面,在被捕过程中,他被警方拦下,并戴上手铐大声喊冤称Speed只是我的名字”,期间还解释喊冤称自己并未超速,也不开车。 不过,很快就有网友质疑,这又是在炒作。 有网友发现逮捕时执法人员”也没按流程没收设备,分析逮�

  • Matrixport 旗下 Cactus Custody 与 OnChain 合作,完成招银国际美元货币市场基金化上链

    新加坡Matrixport旗下合规数字资产托管商Cactus Custody与OnChain合作,将招商国际美元货币市场基金以化形式上链运营,成为全球首只港新互认基金上链案例。该合作解决市场缺乏可审计、可托管的现金类资产等痛点,通过链上净值计算、白名单管理等机制,为机构与合格投资者提供透明、合规的链上投资选项。未来双方将持续深化合作,推动RWA标准化发展。

  • 亚马逊CPF团队到访绿舟,为何选择绿舟?

    亚马逊CPF团队近日访问绿舟,高度认可其在绿色认证领域的专业能力,并释放出对绿色产品大力扶持的信号。绿舟作为亚马逊SPN首批CPF服务商,已服务超70%头部跨境卖家,提供从认证咨询到售后维护的全流程服务。调研显示,绿色产品流量增长显著,欧盟市场销量增幅达15%。未来亚马逊将持续推进CPF计划,与绿舟携手赋能卖家低碳转型,共同驶向绿色增长的蓝海。

  • 苹果上架翻新版Apple Pencil Pro售价849元

    今日,苹果在其官方Apple Store线上商店低调上架了翻新版Apple Pencil Pro,定价849元,较新品999元的官方售价优惠150元。值得注意的是,这是自2024年5月该产品首次发布以来,首次登陆苹果官方翻新渠道,且过去一个月已在多个国家陆续上架销售。 苹果官方强调,翻新版Apple Pencil Pro虽为二手商品,但均经过严格的功能测试与检验流程,确保性能与新品无异。用户购买后可享受与新

  • 免费使用!腾讯地图已接入DeepSeek-V3.1

    DeepSeek V3.1于2025年8月21日发布并开源,腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升:思考效率更高,响应更快;上下文理解更强,支持多轮连贯对话;智能体调用更精准,尤其在中文网页理解和跨领域搜索方面表现突出。依托升级,AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务,让导航升级为全程智能生活陪伴。

今日大家都在搜的词: