当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌

谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌

来源:51CTO.COM 2023-04-16 20:44:26 0浏览 收藏
推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!

图像生成模型卷起来了!视频生成模型卷起来了!

下一个,便是音频生成模型。

近日,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

只需几秒音频提示,它不仅可以生成高质量,连贯的语音,还可以生成钢琴音乐。

图片

论文地址:https://arxiv.org/pdf/2209.03143.pdf

AudioLM是一个具有长期一致性的高质量音频生成框架,将输入的音频映射为一串离散的标记,并将音频生成任务转化为语言建模任务。

现有的音频标记器在音频生成质量和稳定的长期结构之间必须做出权衡,无法兼顾。

为了解决这个矛盾,谷歌采用「混合标记化」方案,利用预训练好的掩膜语言模型的离散化激活,并利用神经音频编解码器产生的离散代码来实现高质量的合成。

图片

AudioLM模型可以基于简短的提示,学习生成自然和连贯的连续词,当对语音进行训练时,在没有任何记录或注释的情况下,生成了语法上通顺、语义上合理的连续语音,同时保持说话人的身份和语调。

除了语音之外,AudioLM还能生成连贯的钢琴音乐,甚至不需要在任何音乐符号来进行训练。

从文本到钢琴曲:两大问题

近年来,在海量的文本语料库中训练出来的语言模型已经显示出其卓越的生成能力,实现了开放式对话、机器翻译,甚至常识推理,还能对文本以外的其他信号进行建模,比如自然图像。

AudioLM的思路是,利用语言建模方面的这些进展来生成音频,而无需在注释数据上进行训练。

不过这需要面对两个问题。

首先,音频的数据率要高得多,单元序列也更长。比如一个句子包含几十个字符表示,但转换成音频波形后,一般要包含数十万个值。

另外,文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情感内容和环境来呈现。

为了克服这两个挑战,AudioLM利用了两种音频标记。

首先,语义标记是从w2v-BERT这个自监督的音频模型中提取的。

这些标记既能捕捉到局部的依赖关系(如语音中的语音,钢琴音乐中的局部旋律),又能捕捉到全局的长期结构(如语音中的语言句法和语义内容,钢琴音乐中的和声和节奏),同时对音频信号进行大量的降采样,以便对长序列进行建模。

不过,从这些token中重建的音频的保真度不高。

为了提高音质,除了语义标记外,AudioLM还利用了SoundStream神经编解码器产生的声学标记,捕捉音频波形的细节(如扬声器特征或录音条件),进行高质量的合成。

如何训练?

AudioLM是一个纯音频模型,在没有任何文本或音乐的符号表示下进行训练。

它通过链接多个Transformer模型(每个阶段一个)从语义标记到精细的声学标记对音频序列进行分层建模。

每个阶段都会根据上次的标记为下一个标记预测进行训练,就像训练一个语言模型一样。

第一阶段在语义标记上执行此任务,以对音频序列的高级结构进行建模。

图片

到了第二阶段,通过将整个语义标记序列与过去的粗声标记连接起来,并将两者作为条件反馈给粗声模型,然后预测未来的标记。

这个步骤模拟了声学特性,例如说话者特性或音乐中的音色。

图片

在第三阶段,使用精细的声学模型来处理粗糙的声学信号,从而为最终的音频增加了更多的细节。

最后,将声学标记输入SoundStream解码器以重建波形。

图片

训练完成后,可以在几秒钟音频上调整AudioLM,这能够让其生成连续性的音频。

为了展示AudioLM的普遍适用性,研究人员通过在不同音频领域的2个任务对其进行检验。

一是Speech continuation,该模型保留提示的说话人特征、韵律,同时还能输出语法正确且语义一致的新内容。

二是Piano continuation,该模型会生成在旋律、和声和节奏方面与提示一致的钢琴音乐。

如下所示,你听到的所有灰色垂直线之后的声音都是由AudioLM生成的。

为了验证效果如何,研究人员让人类评分者去听简短的音频片段,去判断是人类语音的原始录音还是由 AudioLM生成的录音。

根据收集到的评分,可以看到AudioLM有51.2%的成功率,意味着这一AI模型生成的语音对于普通听众来说很难与真正的语音区分开来。

在东北大学研究信息和语言科学的Rupal Patel表示,之前使用人工智能生成音频的工作,只有在训练数据中明确注释这些细微差别,才能捕捉到这些差别。

相比之下,AudioLM从输入数据中自动学习这些特征,同样达到了高保真效果。

随着 GPT3 和 Bloom(文本生成)、 DALLE和Stable Diffusion(图像生成)、RunwayML和Make-A-Video(视频生成)等多模态 ML 模型的出现,关于内容创建和创意工作正在发生变化。

未来的世界,便是人工智能生成的世界。

参考资料:

​https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/​

​https://arxiv.org/pdf/2209.03143.pdf​

​https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html​

​https://google-research.github.io/seanet/audiolm/examples/​

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
文件更小,质量更高,大火的Stable Diffusion还能压缩图像?文件更小,质量更高,大火的Stable Diffusion还能压缩图像?
上一篇
文件更小,质量更高,大火的Stable Diffusion还能压缩图像?
马斯克将大脑上传云端?开玩笑,Neuralink创始人都走光了!
下一篇
马斯克将大脑上传云端?开玩笑,Neuralink创始人都走光了!
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3206次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3419次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3449次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4557次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3827次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码