首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta发布机器学习模型Voicebox:可从文本生成语音 精通六门语言

2023-06-19 11:50 · 稿源:站长之家

站长之家(ChinaZ.com)6月19日 消息:日前,Meta平台的人工智能研究部门推出了名为Voicebox机器学习模型,可以将文本转换为语音。

与其他文本转语音模型不同的是,Voicebox能够执行许多未经过训练的任务,包括编辑、去除噪音和样式转换。

image.png

为训练模型,Meta的研究人员使用了一种名为“ “Flow Matching” ”的方法,该方法比其他生成模型中使用的扩散学习方法更高效和通用。由于担心滥用,Meta并没有发布Voicebox,以及将来可以支持很多应用。

Voicebox是一种生成模型,可以在英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言中合成语音。它通过学习将语音音频样本映射到其转录本的模式来进行训练,从而可以用于许多下游任务。

与特定应用程序训练的生成模型不同,Voicebox在训练过程中使用文本作为训练目标,训练过程中,模型会预测语音片段,中间部分被屏蔽,根据周围的音频和文本转录本进行推理学习,学习使用文本生成自然语言语音。

Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列中生成各种语音样本。这种能力可用于生成合成数据来训练其他语音处理模型。“我们的结果表明,在Voicebox生成的合成语音上训练的语音识别模型的性能几乎与在真实语音上训练的模型一样好,错误率下降了1%,而在以前的文本到语音模型中,合成语音的错误率下降了45%到70%,”Meta写道。

不过Voicebox也有一定限制。由于它已经过有声读物数据的训练,因此它不能很好地转移到随意且包含非语言声音的对话语音中。它也不能完全控制生成的语音的不同属性,例如语音风格、语气、情感和声学条件。Meta团队还在探索技术来克服这些限制。

官方介绍网址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

举报

  • 相关推荐
  • Meta大变!海外广告明星团队谷得易Goody详解“仙女座”如何将一切优化,终归到“素材”这个点

    近期,Meta广告投放效果波动显著,许多从业者反映过去有效的策略正在“失灵”。行业观察者大海指出,这并非简单的算法调整,而是Meta广告系统底层架构已全面切换至新一代AI架构“仙女座”。该系统基于强大的硬件算力,能深度解析素材内容,导致广告投放逻辑发生根本性变化。具体表现为:系统能秒懂素材、人工定向指令被降权、优胜劣汰加速。因此,广告主需将优化重心从精细受众定向转向素材本身,注重生产包含清晰、可学习信号的优质内容,并避免预算分散和暴涨。未来竞争将更聚焦于对用户的理解、创意内容的生产能力以及对素材数据的深度研判。

  • Meta轻量MR头显Phoenix曝光,阿里巴巴/微美全息开启智能眼镜激烈争夺战

    Meta正开发代号“Phoenix”的高端轻量级MR头显,计划2027年上半年上市。同时,阿里夸克AI眼镜首次OTA升级,增强AI能力并优化多项功能。智能眼镜赛道竞争激烈,2025年多家企业密集发布新品,整机重量普遍控制在29克至40克之间。微美全息等厂商积极布局,通过技术自研和场景拓展抢占市场份额。政策层面,智能眼镜被纳入数字和智能产品购新补贴范围,有望推动行业从小众迈向规模化普及新阶段。

  • Meta数十亿美元收购Manus:独立运营 拓展AI应用新版图

    通用型AI Agent领域佼佼者Manus近日宣布加入Meta大家庭,此举被视为对其技术实力的高度认可。Manus专注于构建通用型AI Agent,帮助用户高效完成研究、自动化及复杂任务,已处理超147万亿token并创建超8000万台虚拟计算机,展现强大技术实力。加入Meta后,Manus将保持独立运营,现有服务不受影响,双方将共同推动先进AI能力转化为可规模化、可靠的系统,为用户带来更优质的AI服务体验。

  • AI日报:Meta宣布收购Manus;腾讯混元发布1.5版开源翻译模型;OpenAI更新手机版ChatGPT

    本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus,强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型,端侧部署性能提升。上海16部门联合发文推动“AI+消费”,将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2,免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本,引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计,成为专业用户首选。OpenAI更新手机版ChatGPT,用户可调节AI思考深度。Claude Code可视化工作流编辑器发布,通过拖拽节点即可构建AI自动化流程。

  • 从Meta收购Manus看行业趋势 MasterAgent立国产智能体新标杆

    2025年12月30日,全球AI行业迎来重磅变局!美国科技巨头Meta宣布收购AI智能体产品Manus,创下Meta成立以来第三大收购纪录。就在这一国际智能体赛道格局重塑的关键节点,国产力量同步亮剑——深元人工智能研发的全球首个L4级智能体母体系统MasterAgent宣布正式全面开放,以全栈自主研发的核心优势直面国际竞争,树立国产智能体新标杆,为中国AI智能体赛道的全球博弈注入关键动

  • 水山机械有限公司发布全新SOOSANCEBOTICS液压破碎锤,助力工程项目高效作业

    2026年1月,水山机械有限公司正式发布旗下SOOSANCEBOTICS品牌新款液压破碎锤。该产品采用尖端技术,结合卓越的破碎力与耐用性,旨在为建筑拆除、矿山开采及基础设施建设等领域提供更高效、稳定的设备解决方案。其创新设计融合先进液压系统和精密制造工艺,能在高强度作业环境下表现出色,显著提升工程效率并降低运营成本。同时,设备注重环保节能,优化作业环境,是�

  • 吐车上150美元!特斯拉Robotaxi将收取清洁费

    近日,特斯拉Robotaxi新增规定,乘客若在后座呕吐弄脏车辆,需支付清洁费。 据X平台博主透露,特斯拉推出了两档清洁收费标准,收费档位根据车辆清洁所需的工作量划定。 乘客若在车内泼洒污渍、吸烟、呕吐,或造成其他严重污损车辆内饰的行为,将会因自身违规行为被收取最高150美元的清洁费。 若撒落薯条、带入泥土这类只需简单吸尘清理的情况,清洁费为50美元。

  • 光帆科技将先于OpenAI、Meta发布首款摄像头AI耳机

    中国初创公司光帆科技即将发布全球首款搭载摄像头的AI智能耳机,抢在OpenAI、Meta等巨头之前。该公司由前小米高管创立,主打下一代人机交互的可穿戴硬件。产品通过摄像头实现环境感知与多模态数据采集,旨在提供即时、主动的AI服务体验。目前AI耳机市场同质化严重,光帆此举或将引领行业从“听觉智能”迈向“多模态融合智能”的新方向。

  • 小伙用24条板凳组成120斤重板凳龙:称从11岁就开始学习杂技

    ​近日,一位38岁的杂技传人钟怀杰凭借惊人技艺引发广泛关注——他竟能稳稳顶起由24条板凳组成、重达120斤的“板凳龙”。钟怀杰透露自己从11岁起便开始学习杂技,至今已坚持20余年。这一消息让网友纷纷感叹:“这才是真功夫!” 据钟怀杰介绍,这条“板凳龙”不仅重量惊人,更需通过精准的平衡技巧才能完成表演。他表示,杂技表演需要日复一日的刻苦训练,每一个动�

  • 不止于“卖爆”:学而思与华为如何定义AI学习机品质升级的新标准?

    人工智能技术正深度融入教育场景,驱动AI学习机市场迎来持续性扩容的新浪潮。 近日,学而思与华为深度合作打造的双模式学习机正式开售,上市后表现亮眼,跻身京东新品榜第三、平板电脑榜第八,精准踩中行业发展浪潮。

今日大家都在搜的词: