当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型

来源:51CTO.COM 2023-07-02 09:54:39 0浏览 收藏

今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!

大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。

语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过多调整模型架构即可适应其他序列模态。

最近,谷歌发布了一个统一的语音-文本模型AudioPaLM,将文本和音频的token合并为一个多模态联合词汇表,再结合不同任务描述标记,可以实现在任意语音和文本的混合任务上训练decoder-only模型,包括语音识别(ASR)、文本到语音合成、自动语音翻译(AST)和语音到语音翻译(S2ST)等,将传统上由异质模型解决的任务统一到一个架构和训练流程中。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

论文链接:https://arxiv.org/pdf/2306.12925.pdf

示例链接:https://google-research.github.io/seanet/audiopalm/examples/

此外,由于AudioPaLM的底层架构是一个大型的Transformer模型,可以用对文本进行预训练的大型语言模型的权重来初始化,可以从PaLM等模型的语言学知识中受益。

从实现效果来看,AudioPaLM在AST和S2ST基准上取得了最先进的结果,并且在ASR基准上的性能也和其他模型不相上下。

通过利用AudioLM的音频提示,AudioPaLM模型能够对新的说话人语音迁移来执行S2ST,在语音质量和语音保存方面超过了现有的方法。

AudioPaLM模型也具有zero-shot的能力,可以对训练中未见过的语音输入/目标语言组合执行AST任务。

AudioPaLM

研究人员使用一个decoder-only Transformer模型对文本和语音的token进行建模,其中文本和音频在输入到模型之间已经进行分词,所以输入只是一个整数序列,在输出端再进行反分词(detokenized)操作返回给用户。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

音频embedding及分词

将音频的原始波形转换为token的过程中,包括从现有的语音表征模型中抽取为嵌入(embedding),并将嵌入离散为一组有限的音频token

之前的工作中从w2v-BERT模型中提取嵌入,并通过k-means将其量化,而这篇论文中,研究人员试验了三种方案:

w2v-BERT:使用在多语言数据上训练的w2v-BERT模型,而非纯英语;并且在进行k-means聚类之前没有进行归一化处理,否则会导致在多语言环境中性能下降。然后以25Hz的速率生成token,词表大小为1024

USM-v1:使用性能更强的、20亿参数的通用语音模型(USM)编码器执行类似的操作,并从中间层提取嵌入;

USM-v2:用辅助ASR损失来训练,并进一步微调以支持多语言。

修改text-only解码器

在Transfomrer解码器结构中,除了输入和最后的softmax输出层外,都不涉及到建模token的数量,并且在PaLM架构中,输入和输出矩阵的权重变量时共享的,即互为转置。

所以只需要将嵌入矩阵的大小从(t × m)扩展到(t+a)×m即可把一个纯文本模型变成一个既能模拟文本又能模拟音频的模型,其中t是文本词表的大小,a是音频词表的大小,m是嵌入维度。

为了利用预训练的文本模型,研究人员通过在嵌入矩阵中添加新的行来改变现有模型的checkpoint。

具体的实现为,前t个token对应于SentencePiece文本标记,后面a个token代表音频标记,虽然文本嵌入式复用的预训练权重,但音频嵌入是全新初始化的,必须进行训练。

实验结果显示,与从头重新训练相比,基于文本预训练模型对语音和文本的多模态任务性能提升非常有利。

音频token解码为原生音频

为了从音频token中合成音频波形,研究人员试验了两种不同的方法:

1. 类似AudioLM模型的自回归解码

2. 类似SoundStorm模型的非自回归解码

这两种方法都需要先生成SoundStream token,再用卷积解码器将其转换为音频波形。

研究人员在Multilingual LibriSpeech上进行训练,语音条件为3秒长的语音样本,同时表示为音频token 和SoundStream token

通过提供部分原始输入语音作为语音条件,模型能够在将说话人的语音翻译成不同语言时保留原始说话人的语音,当原始音频短于3秒时,通过重复播放来填充空白时间。

训练任务

使用到的训练数据集均为speech-text数据:

1. 音频Audio:源语言的语音(speech)

2. 转录Transcript:音频数据中语音的转录

3. 翻译音频Translated Audio:音频中语音的口语翻译

4. 翻译转录Translated Transcript:音频中语音的书面翻译

组件任务包括:

1. ASR(自动语音识别):转录音频以获得转录文本

2. AST(自动语音翻译):翻译音频以获得翻译后的转录文本

3. S2ST(语音到语音翻译):翻译音频以获得翻译后的音频

4. TTS(文本到语音):读出转录的内容,以获得音频。

5. MT(文本到文本的机器翻译):翻译转录以获得翻译后的转录文本

一个数据集可能会用于多个任务,所以研究人员选择向模型发出信号,告诉模型应该对给定的输入执行哪项任务,具体方法为:在输入前加上一个标签,指定任务和输入语言的英文名称,输出语言也可以选择。

例如,想要模型对法语语料进行ASR时,分词后的音频输入前面要加上标签[ASR French];要在英语中执行TTS任务,文本前面需要加上[TTS English];要执行从英语到法语的S2ST任务,分词后的英语音频会在前面加上[S2ST English French]

训练混合

研究人员使用SeqIO库对训练数据进行混合,对较大的数据集进行权重降低。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

实验部分

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

AudioPaLM在AST和S2ST任务上超过了其他基线模型,在ASR上性能虽然不是最优,但效果也非常好。

除了评估语音内容的翻译质量外,研究人员还评估了AudioPaLM生成的语言是否质量足够高,并且在翻译成不同语言时能否保留说话人的声音。

客观指标

使用类似于无参考MOS估计器,给定一个音频样本,在1到5的范围内提供一个感知音频质量估计。

为了测量跨语言的语音迁移质量,研究人员使用的现成的说话人验证模型,并计算源(用SoundStream编码/解码)和翻译语音的嵌入之间的余弦相似度;还衡量了从源音频到目标音频的声学特性(录音条件、背景噪音)。

主观评估

研究人员进行了两项独立研究来评估生成的语音质量和语音相似度,两项研究中都使用相同的样本集合。

由于语料的质量参差不齐,有些含有响亮的重叠语音(例如,背景中播放的电视节目或歌曲)或极强的噪音(例如,衣服与麦克风摩擦),类似的失真效果使得人类评分员的工作变得复杂,因此研究人员决定通过只选择MOS估计值至少为3.0的输入进行预过滤。

评分以5级量表提供,从1(质量差或完全不同的声音)到5(质量好,相同的声音)。

一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型图片

从结果中可以观察到AudioPaLM在客观和主观测量中,在音频质量和语音相似度方面都明显优于基线Translatotron 2系统,并且AudioPaLM比CVSS-T中的真实合成录音具有更高的质量和更好的语音相似度,在大多数指标上有比较大提升。

研究人员还对比了高资源组和低资源组(法语、德语、西班牙语和加泰罗尼亚语与其他语言)的系统,发现这些组之间的指标没有明显差异。

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
政府发布新能源汽车购置税减免政策,提振汽车消费信心政府发布新能源汽车购置税减免政策,提振汽车消费信心
上一篇
政府发布新能源汽车购置税减免政策,提振汽车消费信心
国内首款抑郁症诊断机器人亮相达沃斯夏季论坛展台
下一篇
国内首款抑郁症诊断机器人亮相达沃斯夏季论坛展台
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    2次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    2次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    2次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    9次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    10次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码