谷歌Recorder实现说话人自动标注,功能性与iOS语音备忘录再度拉大
科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《谷歌Recorder实现说话人自动标注,功能性与iOS语音备忘录再度拉大》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!
谷歌于 2019 年为其 Pixel 手机推出了安卓系统下的录音软件 Recorder,对标 iOS 下的语音备忘录,并支持音频文件的录制、管理和编辑等。在此之后,谷歌陆续为 Recorder 加入了大量基于机器学习的功能,包括语音识别,音频事件检测,自动标题生成,以及智能浏览等。
不过当录音文件较长并包含多个说话人的时候,一部分 Recorder 的用户在使用过程中会感到不便。因为仅凭语音识别得到的文本,并不能判断每句话分别是谁说的。在今年的 Made By Google 大会上,谷歌公布了 Recorder 应用的自动说话人标注功能。该功能将实时地为语音识别的文本加上匿名的说话人标签(例如 “说话人 1” 或“说话人 2”)。这项功能将极大地提升录音文本的可读性与实用性。而这项功能背后的技术,被称为声纹分割聚类(speaker diarization)。谷歌在 2022 年的 ICASSP 会议上,首次介绍了其名为 Turn-to-Diarize 的声纹分割聚类系统。
左图:关闭了说话人标注的录音文本。右图:开启了说话人标注的录音文本。
系统架构
谷歌的 Turn-to-Diarize 系统包含了多个高度优化的模型和算法,实现了在移动设备上,以极少的计算资源完成对长达数小时的音频进行实时声纹分割聚类处理。该系统主要包含三个组成部分:用以检测说话人身份转换的说话人转换检测模型,用以提取每个说话人声音特征的声纹编码器模型,以及一个能够高效完成说话人标注的多阶段聚类算法。所有组成部分都完全运行在用户的设备上,不依赖于任何服务器连接。
Turn-to-Diarize 系统的架构图。
说话人转换检测
该系统的第一个组成部分是一个基于 Transformer Transducer(T-T)的说话人转换检测模型。该模型能够将声学特征序列转换为包含了特殊字符 的文本序列。特殊字符 表示一个说话人转换的事件。谷歌之前发表的论文曾经用诸如 或 的特殊字符来表示具体说话人的身份。而在最新的系统中,由于 字符不局限于特定的身份,因此其应用也更加广泛。
对于大多数的应用,声纹分割聚类系统的输出一般不会直接呈现给用户,而是与语音识别模型的输出进行结合。由于语音识别模型在训练过程中已经针对词错率进行了优化,因此说话人转换检测模型对于词错率较为宽容,但更加注重特殊字符 的准确率。在此基础上,谷歌提出了一种新的基于字符的损失函数,实现了只需较小的模型,就能准确地检测出说话人转换事件 。
提取声纹特征
当音频信号被按照说话人转换事件进行分割之后,系统通过声纹编码器模型对每一个说话人片段提取包含声纹信息的嵌入码,即 d-vector。谷歌在之前发表的论文中,一般都是从固定长度的音频中提取声纹嵌入码。与之相比,这次的新系统有多项改进。首先,新系统避免了从包含多个说话人信息的片段中提取声纹嵌入码,从而提升了嵌入码的整体质量。其次,每一个声纹嵌入码对应的语音片段,其时长都比较长,因此包含了对应说话人较多的声纹信息。最后,该方法得到的最终声纹嵌入码序列,其长度较短,使得后续的聚类算法计算代价较低。
多阶段聚类
声纹分割聚类的最后一步,便是对前面几步得到的声纹嵌入码序列进行聚类。由于用户使用 Recorder 应用生成的录音可能只有几秒钟,也可能长达 18 小时,所以聚类算法面临的关键挑战便是能够处理各种长度的声纹嵌入码序列。
为此,谷歌的多阶段聚类策略巧妙地结合了几种不同的聚类算法各自的优势。对于较短的序列,该策略采用聚合式分层聚类(AHC)。对于中等长度的序列,该方法采用谱聚类,并利用特征值的最大间隔法,来准确地估算说话人的数量。对于较长的序列,该方法先用聚合式分层聚类来对序列进行预处理,然后再调用谱聚类,从而降低了聚类这一步骤的计算代价。而在整个流式处理的过程当中,通过对之前的聚类结果进行动态缓存并重复利用,每一次聚类算法的调用,其时间复杂度以及空间复杂度,上限都可以被设置为一个常数。
多阶段聚类策略是针对设备端应用的一项关键优化。因为在设备端,CPU、内存、电池等资源通常都较为稀缺。该策略即使在处理过长达数小时的音频之后,依然能够维持在一个低能耗的状态下运行。而该策略的常数复杂度上限,通常可以根据具体的设备型号进行调整,实现准确率和性能之间的平衡。
多阶段聚类策略的示意图。
实时校正以及用户标注
因为 Turn-to-Diarize 是一个实时的流式处理系统,所以当模型处理完更多的音频之后,其预测得到的说话人标签也会变得更加准确。为此,Recorder 应用会在用户录音的过程当中,持续地对之前预测的说话人标签进行校正,保证用户在当前屏幕上看到的说话人标签始终是更为准确的标签。
与此同时,Recorder 应用的用户界面还允许用户对每一段录音中的说话人标签进行重命名,例如将 “说话人 2” 重命名为“汽车经销商”,从而方便用户阅读和记忆。
Recorder 允许用户对说话人标签进行重命名,从而提升可读性。
未来工作
谷歌在最新的数款 Pixel 手机上推出了自研芯片 Google Tensor。而当前的声纹分割聚类系统主要便运行在 Google Tensor 的 CPU 模块上。未来谷歌计划将声纹分割聚类系统运行到 Google Tensor 的 TPU 模块上,从而进一步降低能耗。此外,谷歌还希望借助多语言的声纹编码器以及语音识别模型,将这一功能扩展到除英语之外的其他语言上。
到这里,我们也就讲完了《谷歌Recorder实现说话人自动标注,功能性与iOS语音备忘录再度拉大》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于人工智能,谷歌的知识点!

- 上一篇
- 我们如何确保医疗保健 AI 有用?

- 下一篇
- 挽救失足AI,不能光靠打骂
-
- 科技周边 · 人工智能 | 1小时前 | 视频剪辑 AI视频制作 移动端 AI素材 PremiereRush
- PremiereRushAI视频教程:手机制作指南
- 141浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | AI模型 文本生成 技术挑战 Prompt工程 ClaudeAI混合工具
- ClaudeAI工具使用全攻略详解
- 225浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 文心一言能扩图吗?图文扩展功能详解
- 493浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 | 智能家居 语音控制 GoogleHome 例程 设备关联
- 智能家居AI怎么控制?GoogleHome语音教程
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 多模态AI提升图像识别效率的方法
- 445浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 何小鹏:小鹏P7预售破纪录将于下周上市
- 479浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 十八家云平台DeepSeek部署方案推荐
- 148浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- 小米汽车8月交付破3.6万,YU7登顶SUV销量冠军
- 293浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- Deepseek满血版搭配Prezi,打造惊艳演示体验
- 156浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- AI生成证件照版权归属问题解析
- 218浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 514次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Mermaid流程图
- SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
- 438次使用
-
- 搜获客【笔记生成器】
- 搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
- 426次使用
-
- iTerms
- iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
- 454次使用
-
- TokenPony
- TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
- 464次使用
-
- 迅捷AIPPT
- 迅捷AIPPT是一款高效AI智能PPT生成软件,一键智能生成精美演示文稿。内置海量专业模板、多样风格,支持自定义大纲,助您轻松制作高质量PPT,大幅节省时间。
- 427次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览