当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > OpenAI推出GPT-4ominiTTS文本转语音

OpenAI推出GPT-4ominiTTS文本转语音

2025-03-27 20:39:26 0浏览收藏

OpenAI发布了轻量级文本转语音(TTS)模型GPT-4o mini TTS，以0.015美元/分钟的价格，提供自然流畅的语音输出。该模型基于GPT-4o mini，支持多种语言、性别、口音及情感控制（如平静、鼓励、严肃等），并提供11种内置语音选择。它支持实时音频流处理，输出mp3、opus、aac等格式，适用于智能客服、教育、智能助手、内容创作及无障碍辅助等多种场景，为开发者提供便捷高效的语音合成解决方案。访问官网http://platform.openai.com/docs/guides/text-to-speech 和在线Demo http://www.openai.fm 了解更多信息。

GPT-4o mini TTS：轻量级文本转语音模型，打造自然流畅语音体验

GPT-4o mini TTS是OpenAI推出的一款轻量级文本转语音(TTS)模型，它能够将文本转化为自然流畅的语音输出。开发者可以通过指令控制语音的语调、情感和风格（例如“平静”、“鼓励”、“严肃”等），以满足不同应用场景的需求。该模型基于先进的语音合成技术，支持多种语言、性别、年龄和口音，并提供高质量的语音输出。其价格为每分钟0.015美元。

GPT-4o mini TTS— OpenAI 推出的文本转语音模型

核心功能：

文本转语音： 支持丰富的语音控制选项，包括口音、情感、语调、语气、语速、以及耳语等，生成高质量的语音文件。提供11种内置语音选择，例如alloy、ash、coral等。
多语言支持： 兼容多种语言的语音合成。
实时音频流处理： 支持实时音频流的生成和输出，无需等待完整音频文件生成即可逐步播放，提升用户体验。
多种输出格式： 支持多种音频输出格式，例如mp3、opus、aac等。

技术原理：

基于GPT-4o mini模型： 该TTS模型构建于GPT-4o mini（一款快速且强大的语言模型）之上，确保语音输出的自然度。最大输入标记数为2000。
情感和风格控制： 通过在模型训练中引入额外的控制信号来实现对语音情感和风格的控制。这些信号可以是文本中的特殊标记、元数据或直接指令。
多语言数据集： 利用多语言数据集进行训练，学习不同语言的语音特征和发音规律，从而生成多种语言的自然语音。
实时音频流处理： 采用流式处理技术，在语音生成过程中逐步输出音频数据，实现快速响应和流畅的交互体验，非常适合实时语音对话系统等应用。

项目信息：