当前位置：首页 > 文章列表 > 文章 > python教程 > Python语音识别教程：SpeechRecognition库使用详解

Python语音识别教程：SpeechRecognition库使用详解

2025-07-30 19:10:34 0浏览收藏

想用Python轻松实现语音识别？本文为你提供一份详尽的SpeechRecognition库使用教程，助你快速入门！告别复杂的API，只需几行代码，就能将语音转化为文字。本文将带你了解如何安装SpeechRecognition及其依赖项pyaudio，并解决可能遇到的PortAudio编译问题。我们将手把手教你使用麦克风进行实时录音识别，并支持中文语音输入，同时探索如何处理本地WAV音频文件，实现批量语音转文字。此外，还将对比Google Web Speech API、CMU Sphinx等多种语音识别引擎的优缺点，并分享优化识别效果的实用技巧，例如消除背景噪音、调整监听时间等。掌握这些关键步骤，你也能轻松打造个性化的语音助手或控制程序！

语音识别在Python中并不难，主要通过SpeechRecognition库实现。1. 安装SpeechRecognition和依赖：执行pip install SpeechRecognition及pip install pyaudio，Linux或macOS可能需额外安装PortAudio开发库。2. 实时录音识别：导入模块并创建Recognizer对象，使用Microphone监听音频，调用recognize_google方法进行识别，支持中文需加language="zh-CN"参数。3. 处理本地音频文件：使用AudioFile读取WAV文件，同样调用识别引擎处理。4. 可选识别引擎包括CMU Sphinx（离线识别）、Google Cloud Speech（付费API）等，可根据需求选择。5. 识别出错时可调整参数如adjust_for_ambient_noise、timeout、phrase_time_limit以优化效果。掌握这些步骤即可实现基础语音助手或控制程序。

Python如何实现语音识别？SpeechRecognition库实战教程

语音识别在Python里其实没有想象中那么难，尤其是有了SpeechRecognition这个库之后。它封装了多种语音识别引擎和API，能让你用几行代码就把音频转成文字。

安装SpeechRecognition和依赖项

要使用SpeechRecognition，首先得安装它本身以及相关的依赖。最基础的命令是：

pip install SpeechRecognition

但光这样还不行，因为默认情况下它不带语音识别引擎。如果你打算用Google Web Speech API（免费、无需注册），还需要安装pyaudio来获取麦克风输入：

pip install pyaudio

注意：在Linux或macOS上可能需要额外安装PortAudio开发库才能编译PyAudio。

从麦克风录音并识别

这是最常用也最有意思的部分——实时听你说话然后识别出来。步骤大致如下：

导入模块并创建Recognizer对象
使用Microphone作为源来监听音频
用recognize_google方法进行识别

示例代码：

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    print("请说话...")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language="zh-CN")
    print("你说的是：" + text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错；{e}")

这段代码会监听一次麦克风输入，然后调用Google的API进行识别。如果你希望支持中文，记得加上language="zh-CN"参数。

处理本地音频文件

除了实时录音，SpeechRecognition也能处理WAV格式的音频文件。其他格式比如MP3需要先转换一下。

步骤类似，只是把Microphone换成AudioFile：

with sr.AudioFile('example.wav') as source:
    audio = r.record(source)  # 读取整个文件

然后同样用recognize_google或者其他引擎去识别。这种方法适合做批量语音转文字的任务，比如会议记录、视频字幕提取等。

可选识别引擎和注意事项

SpeechRecognition支持多个引擎，比如CMU Sphinx（本地识别，不需要联网）、Google Cloud Speech（需付费API密钥）、Microsoft Bing Voice Recognition等。

常用的几个方式对比：

Google Web Speech API：免费，简单好用，但识别中文有时候不太准
CMU Sphinx：离线可用，速度快，但准确率略低
Google Cloud Speech：更强大，支持更多语言和高级功能，但需要网络+付费授权

另外，如果识别不出来或者总是出错，可以尝试调整以下参数：

adjust_for_ambient_noise()：用于消除背景噪音
timeout和phrase_time_limit：控制监听时间长度
提高录音质量或改用外接麦克风

基本上就这些。掌握这几个关键点，就能用Python做出一个简单的语音助手或者语音控制程序了。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Python语音识别教程：SpeechRecognition库使用详解》文章吧，也可关注golang学习网公众号了解相关技术文章。

Python影视评论数据整合：API与爬虫源码解析

上一篇: Python影视评论数据整合：API与爬虫源码解析

下一篇: PHPMyAdmin用户权限设置教程

查看更多