稀宇科技(MiniMax)宣布其Speech-02语音模型在Artificial Analysis榜单中持续保持全球领先地位,并正式推出Voice Design音色设计功能。该功能允许用户通过自然语言描述生成个性化音色,实现“任意语言 × 任意口音 × 任意音色”的全自定义组合,进一步降低语音合成领域的技术门槛。
据稀宇科技介绍,Voice Design功能可精准控制音色的多个维度,包括音频质量、发声方式、情感基调及人物画像。用户仅需输入文本描述,模型即可自动拆解需求并生成对应的音色编码。例如,用户可描述“带有积极鼓励的AI助手,语调积极,韵律变化丰富”,或“严厉的AI助手,女声,语速较快,音色明亮”,系统将生成符合要求的语音。
为验证功能效果,稀宇科技展示了多组音色示例:古代侠客的洪亮正直、悬疑故事播音员的低沉磁性、权威新闻女主播的清晰利落,以及充满活力的推销员语速等。这些示例展示了Voice Design在音色定制方面的灵活性,可满足不同场景的语音需求。
稀宇科技指出,Voice Design的推出解决了语音合成领域的两大挑战:一是传统音色库难以匹配细分场景的多样化需求,二是复刻音色存在版权风险且操作复杂。通过Voice Design,用户无需准备高质量输入素材,即可快速生成理想音色,并可存储用于后续音频创作。
目前,稀宇科技的两代Speech模型已累计生成超过1.5亿小时的语音,与全球超30个国家的客户达成合作。此次Voice Design功能的上线,标志着稀宇科技在语音技术领域的持续创新,并致力于为全球用户提供更便捷、高效的语音解决方案。
用户可通过稀宇科技国内版平台(minimaxi.com/audio)或海外版平台(minimax.io/audio)体验Voice Design功能,探索语音合成的无限可能。