当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

来源：51CTO.COM 2023-04-16 20:44:26 0浏览收藏

来到golang学习网的大家，相信都是编程学习爱好者，希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌》，介绍一下，希望对大家的知识积累有所帮助，助力实战开发！

图像生成模型卷起来了！视频生成模型卷起来了！

下一个，便是音频生成模型。

近日，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

只需几秒音频提示，它不仅可以生成高质量，连贯的语音，还可以生成钢琴音乐。

论文地址：https://arxiv.org/pdf/2209.03143.pdf

AudioLM是一个具有长期一致性的高质量音频生成框架，将输入的音频映射为一串离散的标记，并将音频生成任务转化为语言建模任务。

现有的音频标记器在音频生成质量和稳定的长期结构之间必须做出权衡，无法兼顾。

为了解决这个矛盾，谷歌采用「混合标记化」方案，利用预训练好的掩膜语言模型的离散化激活，并利用神经音频编解码器产生的离散代码来实现高质量的合成。

AudioLM模型可以基于简短的提示，学习生成自然和连贯的连续词，当对语音进行训练时，在没有任何记录或注释的情况下，生成了语法上通顺、语义上合理的连续语音，同时保持说话人的身份和语调。

除了语音之外，AudioLM还能生成连贯的钢琴音乐，甚至不需要在任何音乐符号来进行训练。

从文本到钢琴曲：两大问题

近年来，在海量的文本语料库中训练出来的语言模型已经显示出其卓越的生成能力，实现了开放式对话、机器翻译，甚至常识推理，还能对文本以外的其他信号进行建模，比如自然图像。

AudioLM的思路是，利用语言建模方面的这些进展来生成音频，而无需在注释数据上进行训练。

不过这需要面对两个问题。

首先，音频的数据率要高得多，单元序列也更长。比如一个句子包含几十个字符表示，但转换成音频波形后，一般要包含数十万个值。

另外，文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情感内容和环境来呈现。

为了克服这两个挑战，AudioLM利用了两种音频标记。

首先，语义标记是从w2v-BERT这个自监督的音频模型中提取的。

这些标记既能捕捉到局部的依赖关系（如语音中的语音，钢琴音乐中的局部旋律），又能捕捉到全局的长期结构（如语音中的语言句法和语义内容，钢琴音乐中的和声和节奏），同时对音频信号进行大量的降采样，以便对长序列进行建模。

不过，从这些token中重建的音频的保真度不高。

为了提高音质，除了语义标记外，AudioLM还利用了SoundStream神经编解码器产生的声学标记，捕捉音频波形的细节（如扬声器特征或录音条件），进行高质量的合成。

如何训练？

AudioLM是一个纯音频模型，在没有任何文本或音乐的符号表示下进行训练。

它通过链接多个Transformer模型（每个阶段一个）从语义标记到精细的声学标记对音频序列进行分层建模。

每个阶段都会根据上次的标记为下一个标记预测进行训练，就像训练一个语言模型一样。

第一阶段在语义标记上执行此任务，以对音频序列的高级结构进行建模。

到了第二阶段，通过将整个语义标记序列与过去的粗声标记连接起来，并将两者作为条件反馈给粗声模型，然后预测未来的标记。

这个步骤模拟了声学特性，例如说话者特性或音乐中的音色。

在第三阶段，使用精细的声学模型来处理粗糙的声学信号，从而为最终的音频增加了更多的细节。

最后，将声学标记输入SoundStream解码器以重建波形。

训练完成后，可以在几秒钟音频上调整AudioLM，这能够让其生成连续性的音频。

为了展示AudioLM的普遍适用性，研究人员通过在不同音频领域的2个任务对其进行检验。

一是Speech continuation，该模型保留提示的说话人特征、韵律，同时还能输出语法正确且语义一致的新内容。

二是Piano continuation，该模型会生成在旋律、和声和节奏方面与提示一致的钢琴音乐。

如下所示，你听到的所有灰色垂直线之后的声音都是由AudioLM生成的。

为了验证效果如何，研究人员让人类评分者去听简短的音频片段，去判断是人类语音的原始录音还是由 AudioLM生成的录音。

根据收集到的评分，可以看到AudioLM有51.2%的成功率，意味着这一AI模型生成的语音对于普通听众来说很难与真正的语音区分开来。

在东北大学研究信息和语言科学的Rupal Patel表示，之前使用人工智能生成音频的工作，只有在训练数据中明确注释这些细微差别，才能捕捉到这些差别。

相比之下，AudioLM从输入数据中自动学习这些特征，同样达到了高保真效果。

随着 GPT3 和 Bloom（文本生成）、 DALLE和Stable Diffusion（图像生成）、RunwayML和Make-A-Video（视频生成）等多模态 ML 模型的出现，关于内容创建和创意工作正在发生变化。

未来的世界，便是人工智能生成的世界。

参考资料：

https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/

https://arxiv.org/pdf/2209.03143.pdf

https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html

https://google-research.github.io/seanet/audiolm/examples/

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

AI 谷歌

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

文件更小，质量更高，大火的Stable Diffusion还能压缩图像？

文件更小，质量更高，大火的Stable Diffusion还能压缩图像？

上一篇: 文件更小，质量更高，大火的Stable Diffusion还能压缩图像？

马斯克将大脑上传云端？开玩笑，Neuralink创始人都走光了！

下一篇: 马斯克将大脑上传云端？开玩笑，Neuralink创始人都走光了！

查看更多

最新文章

科技周边 · 人工智能 | 5天前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

2088次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

1941次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

1877次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

2086次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

2069次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码