当前位置：首页 > 文章列表 > 科技周边 > 业界新闻 > 微软开源VibeVoice，支持4人同声输出

微软开源VibeVoice，支持4人同声输出

2025-08-30 08:43:19 0浏览收藏

大家好，我们又见面了啊~本文《微软开源VibeVoice，支持4人同时发声》的内容中将会涉及到等等。如果你正在学习科技周边相关知识，欢迎关注我，以后会给大家带来更多科技周边相关文章，希望我们能一起进步！下面就开始本文的正式内容~

微软近日正式开源了其最新研发的文本转语音（TTS）模型 VibeVoice-1.5B，该模型以“超长时长、多说话人、高压缩比”为核心亮点，能够单次生成最长90分钟的连续语音流，并支持最多4位不同说话人同时发声，适用于复杂对话场景与长内容播报。

微软开源文本转语音模型 VibeVoice，支持最多 4 位说话人同时发声

VibeVoice-1.5B 的关键技术突破在于其独特的双 Tokenizer 架构设计，模型由两个既独立又协同工作的模块组成。

微软开源文本转语音模型 VibeVoice，支持最多 4 位说话人同时发声

1. 声学 Tokenizer：专注声音特征保留与高效压缩

该模块采用基于变分自编码器（VAE）的对称编码-解码结构，有效缓解了传统 VAE 在处理长语音序列时常见的“方差坍缩”问题，从而更好地保持语音多样性。

通过融合7阶段改进型 Transformer 与 1D 深度可分离因果卷积，声学 Tokenizer 可将 24kHz 高采样率的原始音频信号压缩为每秒仅 7.5 个潜在向量，实现高达 3200 倍的压缩比，相较主流 Encodec 模型效率提升达 80 倍。

2. 语义 Tokenizer：精准提取与文本对齐的语义信息

其架构沿用声学 Tokenizer 编码器结构，但去除了 VAE 中的随机采样机制，确保语义表示的确定性与稳定性。

在训练阶段，语义 Tokenizer 通过自动语音识别（ASR）任务进行监督学习，强化语音与文本之间的对齐能力；推理时则舍弃解码器部分，使整体推理速度提升约 40%。

这种双轨并行的设计策略，使得模型既能高度还原语音的自然音色、语调和节奏，又能确保输出内容与输入文本在语义层面高度一致，显著改善了传统 TTS 模型中常见的“情绪与音色错位”现象。

开源地址：

https://github.com/microsoft/VibeVoice
https://huggingface.co/microsoft/VibeVoice-1.5B

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

168.1.1与192.168.1.1区别对比

168.1.1与192.168.1.1区别对比

上一篇: 168.1.1与192.168.1.1区别对比

腾讯文档创建表单教程详解

下一篇: 腾讯文档创建表单教程详解

查看更多

最新文章

科技周边 · 业界新闻 | 3天前 | 云原生 · kubernetes · devops · 业界新闻 · 集群升级 · 云原生 Kubernetes 灰度升级 v1.36 集群升级弃用项审计

Kubernetes v1.36 发布后怎么升级：从弃用项审计到灰度验证

414浏览收藏
科技周边 · 业界新闻 | 3天前 | Node.js · 业界新闻 · LTS · 版本升级 · 前端工程 · 回归测试 Node.js 24.16.0 LTS升级 Node版本管理灰度上线

Node.js 24.16.0 LTS 发布后怎么升级：从特性筛选到灰度上线

375浏览收藏
科技周边 · 业界新闻 | 3天前 | go · 版本管理 · 业界新闻 · 安全更新 · 版本升级 Go 1.26.4 Go 1.25.11 Go安全更新回归验证

Go 1.26.4 安全更新怎么跟进：从版本盘点到回归验证

134浏览收藏
科技周边 · 业界新闻 | 4天前 | 人工智能 · 云计算 · 业界新闻 · Cloudflare AI推理模型压缩 Ensemble AI Workers AI

Cloudflare 吸收 Ensemble AI 团队：开发者该怎么重新审视 AI 推理链路

430浏览收藏
科技周边 · 业界新闻 | 5天前 | 业界新闻 · Cloudflare · AI Gateway · Spend Limits · AI成本 · Cloudflare AI Gateway Spend Limits AI成本治理 AI预算模型降级

Cloudflare AI Gateway 加入 Spend Limits：从 AI 账单失控到预算治理的完整流程

495浏览收藏
科技周边 · 业界新闻 | 5天前 | Node.js · javascript · 安全版本 · 运行时 · 升级排查 · 业界新闻 Node.js安全版本 Node.js 26.3.0 运行时升级 JavaScript安全

Node.js 安全版本预告来了：从官方公告到升级窗口一步步排查

308浏览收藏
科技周边 · 业界新闻 | 6天前 | devops · CI/CD · gitHub actions · 业界新闻 · 自托管Runner · DevOps CI/CD GitHub Actions self-hosted runner Runner升级

GitHub Actions 自托管 Runner 强制升级时间线：CI 团队该提前查什么

431浏览收藏
科技周边 · 业界新闻 | 1星期前 | github · gitHub actions · 业界新闻 · AI代理 · GitHub AI代理 GitHub Actions Agentic Workflows CI分析 Issue分流工程自动化

GitHub Agentic Workflows 公测：AI 代理开始进入 Actions 自动化流水线

354浏览收藏
科技周边 · 业界新闻 | 1星期前 | 安全 · CI/CD · gitHub actions · 业界新闻 · 开发者工具 · 代码审查供应链安全业界新闻 GitHub Actions 机器人PR CI安全

机器人 PR 运行 CI/CD 需要审批：GitHub Actions 新变化给团队的安全提醒

473浏览收藏
科技周边 · 业界新闻 | 1星期前 | 人工智能 · AI编程 · 业界新闻 · 开发者工具 · 软件工程 · AI工具代码审查软件工程开发者工具 AI编程代理业界新闻

AI 编程代理进入工程主流程：从官方动态看团队落地的三个信号

214浏览收藏
科技周边 · 业界新闻 | 2星期前 | c919零件通道中美航天合作

200架波音换C919，国产零件持续供应！

345浏览收藏
科技周边 · 业界新闻 | 2星期前 | win11

Win11用户注意！木马威胁警告来袭

356浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

1125次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

1079次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

1015次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

1206次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

1196次使用

查看更多

相关文章

Nothing品牌发布首个子品牌CMF，计划年底推出智能手表和耳机

2023-08-05 501浏览
中国气象局探讨促进人工智能气象预报大模型构建

2023-08-13 501浏览
强大性能搭配时尚外观：OPPO Reno 10系列手机正式开售！

2023-08-12 501浏览
Trek推出Electra Pronto Go电动自行车，助力全球绿色出行浪潮

2023-08-23 501浏览
微软灵活升级计划：Win11 8月累积更新发布

2023-08-09 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码