当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > MiniMax新一代Speech-02文本转语音模型

MiniMax新一代Speech-02文本转语音模型

2025-05-30 08:57:17 0浏览收藏

MiniMax发布的新一代文本转语音模型Speech-02，采用回归Transformer架构，实现了零样本语音克隆功能，仅需几秒的参考语音即可生成高度相似的目标语音。该模型通过Flow-VAE架构进一步提升了语音生成的信息表达能力，显著提高了合成语音的质量和相似度。Speech-02提供两个版本：Speech-02-HD专为高保真需求设计，适用于配音和有声书；Speech-02-Turbo则针对实时性能进行了优化，适合交互式应用场景。该模型支持32种语言，擅长中文、英文和粤语，并提供个性化语音生成和情感调控功能。

Speech-02是什么

Speech-02是MiniMax发布的新一代文本转语音（TTS）模型。该模型采用回归Transformer架构，实现了零样本语音克隆功能，只需几秒钟的参考语音即可生成高度相似的目标语音。Flow-VAE架构进一步提升了语音生成的信息表达能力，提高了合成语音的质量和相似度。Speech-02提供两个版本：Speech-02-HD专为高保真需求设计，例如配音和有声书，能够解决节奏不一致的问题，保持音质清晰；而Speech-02-Turbo则针对实时性能进行了优化，在保证低延迟的同时提供出色的音质，适合交互式应用场景。Speech-02现已在MiniMax Audio平台以及MiniMax API平台上推出。

Speech-02的主要特点

零样本语音克隆：仅需几秒的参考语音，就能生成高度相似的目标语音。
高品质语音合成：生成自然流畅的语音，支持多种语言和方言。
多语言支持：支持32种语言，特别擅长中文、英文和粤语等，可以轻松实现跨语言转换。
个性化语音生成：用户上传示例音频，模型学习后可生成个性化的语音。
情感调控：依据文字描述调整语音的情感，如快乐、悲伤等，以指导语音生成。

Speech-02的技术基础

自回归Transformer架构：基于自回归Transformer架构构建，生成的语音具有更好的韵律、语调和整体自然度。自回归模型在生成过程中逐帧生成语音特征，从而确保生成的语音更加自然且连贯。
零样本语音克隆：通过引入可学习的说话人编码器，该编码器专注于提取合成语音中最相关的发声特性，如说话者的独特发音习惯。模型仅需几秒的参考语音即可生成高度相似的目标语音。
Flow-VAE架构：利用可逆映射变换潜在空间，更精准地捕捉数据中的复杂模式。Flow-VAE架构增强了语音生成过程中的信息表达能力，显著提升了合成语音的整体质量和相似度。
T2V框架：结合开放式的自然语言描述与结构化标签信息，实现高度灵活且可控的音色生成。用户可根据文字描述引导模型生成特定音色和情感的语音。