当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇

来源：51CTO.COM 2023-08-06 16:21:55 0浏览收藏

欢迎各位小伙伴来到golang学习网，相聚于此都是缘哈哈哈！今天我给大家带来《支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇》，这篇文章主要讲到等等知识，如果你对科技周边相关的知识非常感兴趣或者正在自学，都可以关注我，我会持续更新相关文章！当然，有什么建议也欢迎在评论留言提出！一起学习！

AI 参与的语音世界真神奇，既可以将一个人的语音换成任何其他人的语音，也可以与动物之间的语音互换。

我们知道，语音转换的目标是将源语音转换为目标语音，并保持内容不变。最近的任意到任意（any-to-any）语音转换方法提高了自然度和说话者相似度，但复杂性却大大增加了。这意味着训练和推理的成本变得更高，使得改进效果难以评估和建立。

问题来了，高质量的语音转换需要复杂性吗？在近日南非斯坦陵布什大学的一篇论文中，几位研究者探究了这个问题。

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇

论文地址：https://arxiv.org/pdf/2305.18975.pdf
GitHub 地址：https://bshall.github.io/knn-vc/

研究亮点在于：他们引入了 K 最近邻语音转换（kNN-VC），一种简单而强大的任意到任意语音转换方法。在过程中不训练显式转换模型，而是简单地使用了 K 最近邻回归。

具体而言，研究者首先使用自监督语音表示模型来提取源话语和参照话语的特征序列，然后通过将源表示的每个帧替换为参照中的最近邻来转换成目标说话者，最后使用神经声码器对转换后的特征进行合成以获得转换后的语音。

从结果来看，尽管 KNN-VC 很简单，但与几个基线语音转换系统相比，它在主观和客观评估中都能媲美甚至提高了清晰度和说话者相似度。

我们来欣赏一下 KNN-VC 语音转换的效果。先来看人声转换，将 KNN-VC 应用于 LibriSpeech 数据集中未见过的源说话者和目标说话者。

源语音00:11

合成语音100:11

合成语音200:11

KNN-VC 还支持了跨语言语音转换，比如西班牙语到德语、德语到日语、汉语到西班牙语。

源汉语00:08

目标西班牙语00:05

合成语音300:08

更令人称奇的是，KNN-VC 还能将人声与狗吠声互换。

源狗吠00:09

源人声00:05

合成语音400:08

合成语音500:05

我们接下来看 KNN-VC 如何运行以及与其他 jixian 方法的比较结果。

方法概览及实验结果

kNN-VC 的架构图如下所示，遵循了编码器 - 转换器 - 声码器结构。首先编码器提取源语音和参照语音的自监督表示，然后转换器将每个源帧映射到参照中它们的最近邻，最后声码器根据转换后的特征生成音频波形。

其中编码器采用 WavLM，转化器采用 K 最近邻回归、声码器采用 HiFiGAN。唯一需要训练的组件是声码器。

对于 WavLM 编码器，研究者只使用预训练的 WavLM-Large 模型，并在文中不对它做任何训练。对于 kNN 转换模型，kNN 是非参数，不需要任何训练。对于 HiFiGAN 声码器，采用原始 HiFiGAN 作者的 repo 对 WavLM 特征进行声码处理，成为唯一需要训练的部分。

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇图片

在实验中，研究者首先将 KNN-VC 与其他基线方法进行比较，使用了最大可用目标数据（每个说话者大约 8 分钟的音频）来测试语音转换系统。

对于 KNN-VC，研究者使用所有目标数据作为匹配集。对于基线方法，他们对每个目标话语的说话者嵌入求平均。

下表 1 报告了每个模型的清晰度、自然度和说话者相似度的结果。可以看到，kNN-VC 实现了与最佳基线 FreeVC 相似的自然度和清晰度，但说话者相似度却显著提高了。这也印证了本文的论断：高质量的语音转换不需要增加复杂性。

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇

此外，研究者想要了解有多少改进得益于在预匹配数据上训练的 HiFi-GAN，以及目标说话者数据大小对清晰度和说话者相似度的影响有多大。

下图 2 展示了两种 HiFi-GAN 变体在不同目标说话者大小时的 WER（越小越好）和 EER（越高越好）关系图。

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇图片

网友热评

对于这个「仅利用最近邻」的语音转换新方法 kNN-VC，有人认为，文中使用了预训练语音模型，因此用「仅」不太准确。但不可否认，kNN-VC 仍然要比其他模型简单。

结果也证明了，与非常复杂的任意到任意语音转换方法相比，kNN-VC 即便不是最好，也同样有效。

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇图片

还有人表示，人声与狗吠互换的例子非常有趣。

支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇图片

终于介绍完啦！小伙伴们，这篇关于《支持跨语言、人声狗吠互换，仅利用最近邻的简单语音转换模型有多神奇》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识，快来关注吧！

AI 语音

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

win10快捷键模式撤出实例教程

win10快捷键模式撤出实例教程

上一篇: win10快捷键模式撤出实例教程

图文演示宏碁笔记本win7安装步骤

下一篇: 图文演示宏碁笔记本win7安装步骤

查看更多

最新文章

科技周边 · 人工智能 | 14分钟前 |

豆包大模型+AI书法工具，打造独特字体教程

355浏览收藏
科技周边 · 人工智能 | 34分钟前 |

现代汽车美出口骤降88%，或现行业危机

324浏览收藏
科技周边 · 人工智能 | 43分钟前 |

豆包AI写日志技巧全解析

358浏览收藏
科技周边 · 人工智能 | 1小时前 | API 多模态提示工程上下文管理 Claude-5

Claude-5怎么用？最新功能与技术解析

291浏览收藏
科技周边 · 人工智能 | 1小时前 |

AI备份工具怎么和豆包一起用？

283浏览收藏
科技周边 · 人工智能 | 1小时前 | 物联网数字化转型工业互联网数智产业榜单领航企业

2025数智产业榜单：领军企业曝光！

176浏览收藏
科技周边 · 人工智能 | 1小时前 |

ChatGPT增强技巧与微调教程详解

451浏览收藏
科技周边 · 人工智能 | 1小时前 |

讯飞星火如何生成PPT讲解内容？AI全流程演示

260浏览收藏
科技周边 · 人工智能 | 1小时前 |

苹果用户轻松使用DeepSeek操作指南

112浏览收藏
科技周边 · 人工智能 | 1小时前 |

ChatGPT能画图吗？图文生成教程

434浏览收藏
科技周边 · 人工智能 | 1小时前 |

豆包AI回复风格调整技巧分享

156浏览收藏
科技周边 · 人工智能 | 1小时前 | 用户行为限时折扣 A/B测试 360智图促销标签

360智图添加促销标签方法与技巧

498浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

511次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

498次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

484次学习

查看更多

AI推荐

千音漫语

千音漫语，北京熠声科技倾力打造的智能声音创作助手，提供AI配音、音视频翻译、语音识别、声音克隆等强大功能，助力有声书制作、视频创作、教育培训等领域，官网：https://qianyin123.com

268次使用
MiniWork

MiniWork是一款智能高效的AI工具平台，专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具，提供精准智能解决方案，让复杂工作简单高效。

261次使用
NoCode

NoCode (nocode.cn)是领先的无代码开发平台，通过拖放、AI对话等简单操作，助您快速创建各类应用、网站与管理系统。无需编程知识，轻松实现个人生活、商业经营、企业管理多场景需求，大幅降低开发门槛，高效低成本。

259次使用
达医智影

达医智影，阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”，仅一次CT扫描即可高效识别多种癌症、急症及慢病，为疾病早期发现提供智能、精准的AI影像早筛解决方案。

269次使用
智慧芽Eureka

智慧芽Eureka，专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景，通过专家级AI Agent精准执行任务，智能化工作流解放70%生产力，让您专注核心创新。

283次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码