当前位置：首页 > 文章列表 > 文章 > python教程 > PythonOCR教程：Tesseract识别使用指南

PythonOCR教程：Tesseract识别使用指南

2025-07-07 10:12:29 0浏览收藏

有志者，事竟成！如果你在学习文章，那么本文《Python OCR教程：Tesseract识别全攻略》，就很适合你！文章讲解的知识点主要包括，若是你对本文感兴趣，或者是想搞懂其中某个知识点，就请你继续往下看吧~

使用Python和Tesseract进行OCR的核心步骤包括：1. 安装Tesseract OCR引擎；2. 安装pytesseract库和Pillow；3. 编写代码调用Tesseract识别图片中的文字。安装Tesseract时，Windows用户需将其路径添加到环境变量或在代码中指定路径；macOS可通过Homebrew安装；Linux可用包管理器安装。接着通过pip install pytesseract pillow安装依赖库。代码示例中包含错误处理，确保Tesseract未找到或图片路径错误时能提示相关信息。常见参数如lang（指定语言）、config（设置PSM和OEM模式）可提升识别精度，而image_to_data()可用于获取文本位置和置信度。为优化低质量图片的识别效果，建议进行图像预处理，包括灰度化、二值化、去噪、倾斜校正、调整对比度/亮度以及适当缩放，这些操作通常结合OpenCV和PIL库实现。

如何使用Python进行OCR？Tesseract识别

在Python里想做OCR（光学字符识别），Tesseract无疑是那个经常被提及的名字。它是个非常强大的开源OCR引擎，而我们通常会通过pytesseract这个Python库来与它进行交互，从而让Python程序能够调用Tesseract的识别能力，把图片上的文字“读”出来。简单来说，就是用pytesseract做桥梁，让Python能指挥Tesseract干活。

解决方案

要使用Python和Tesseract进行OCR，核心步骤包括安装Tesseract引擎本身、安装pytesseract库，然后编写几行代码来调用它。我个人觉得，最开始上手时，最大的“坑”可能就是Tesseract引擎的安装路径问题，尤其是Windows用户。

首先，确保你的系统里已经安装了Tesseract OCR引擎。这不是Python库，而是一个独立的应用程序。你可以去Tesseract的GitHub页面或者通过包管理器来安装它。比如在Debian/Ubuntu上是sudo apt install tesseract-ocr，在macOS上可以用Homebrew：brew install tesseract。Windows用户则需要下载安装包，安装时记得勾选“Add to PATH”或者手动添加到环境变量里，这步挺关键的。

接着，安装Python的pytesseract库：

pip install pytesseract pillow

Pillow是处理图像的库，pytesseract依赖它。

然后，就可以开始写代码了。一个最简单的例子就是识别一张图片中的文字：

import pytesseract
from PIL import Image

# 如果Tesseract没有添加到系统环境变量，你需要在这里指定它的安装路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 
# 或者 '/usr/local/bin/tesseract' (macOS/Linux)

try:
    # 加载图片
    img = Image.open('example.png') 

    # 使用Tesseract进行OCR识别
    text = pytesseract.image_to_string(img)

    print("识别出的文字：")
    print(text)

except pytesseract.TesseractNotFoundError:
    print("错误：Tesseract OCR引擎未找到。请确保已安装Tesseract并将其路径添加到系统环境变量，或在代码中指定pytesseract.pytesseract.tesseract_cmd。")
except FileNotFoundError:
    print("错误：图片文件未找到。请检查图片路径是否正确。")
except Exception as e:
    print(f"发生了一个意外错误：{e}")

这里我特意加了错误处理，因为实际开发中，Tesseract找不到或者图片路径不对是常事。你得知道问题可能出在哪。

如何安装和配置Tesseract OCR引擎？

安装Tesseract OCR引擎是使用pytesseract的前提，这步有时候比写Python代码本身还让人头疼。Tesseract是个命令行工具，pytesseract只是个包装器，所以它得能找到那个命令行工具。

在Windows上，通常需要从Tesseract的GitHub发布页下载对应的安装程序（比如tesseract-ocr-w64-setup-v5.x.x.exe）。安装过程中，务必留意勾选“Add Tesseract to PATH”选项。如果忘记了，或者想手动设置，你需要把Tesseract的安装目录（比如C:\Program Files\Tesseract-OCR）添加到系统的环境变量Path里。或者，就像上面代码里展示的，直接在Python脚本中用pytesseract.pytesseract.tesseract_cmd = r'你的Tesseract安装路径\tesseract.exe'来指定。我个人倾向于添加到环境变量，这样全局可用，不用每个脚本都写一遍。

对于macOS用户，Homebrew是首选。打开终端，输入brew install tesseract，它会自动帮你处理好依赖和路径。这真的是Mac用户的一大福利，省心不少。

Linux发行版，比如Ubuntu或Debian，直接用包管理器安装：sudo apt update && sudo apt install tesseract-ocr。CentOS/RHEL则可能是sudo yum install tesseract或sudo dnf install tesseract。安装完成后，Tesseract通常会自动添加到系统路径中。

安装完成后，你可以在命令行里输入tesseract --version来验证是否安装成功并能被系统识别。如果能显示版本信息，那就说明Tesseract已经准备就绪了。

`pytesseract`库的基本用法和常见参数有哪些？

pytesseract库本身用起来很直观，它提供了一些核心函数来满足不同的OCR需求。最常用的当然是image_to_string()，它直接返回识别出来的文本字符串。

除了最基础的识别，pytesseract还允许你传递一些参数给Tesseract，来控制识别过程，这对于提升识别精度非常重要。

lang 参数： 这是最常用的一个。Tesseract支持多种语言识别，你需要告诉它识别什么语言。比如，识别中文就用lang='chi_sim'（简体中文），识别英文是lang='eng'。如果你需要识别多种语言混合的文本，可以用lang='eng+chi_sim'。不过，前提是你安装Tesseract时，也下载了对应的语言包。
```
text_chinese = pytesseract.image_to_string(img, lang='chi_sim')
print("中文识别：", text_chinese)
```
config 参数： 这个参数非常强大，你可以通过它传递任何Tesseract的命令行参数。比如，--psm（Page Segmentation Mode，页面分割模式）和--oem（OCR Engine Mode，OCR引擎模式）是两个非常关键的参数。
- --psm： 告诉Tesseract图片上的文字排布是怎样的。比如，--psm 6表示假设图片是单行文本（默认是3，自动页面分割）。如果你的图片就是一行字，用psm 7或psm 10可能会更准。
  - 0: Orientation and script detection (OSD) only.
  - 3: Fully automatic page segmentation (default).
  - 6: Assume a single uniform block of text.
  - 7: Treat the image as a single text line.
  - 10: Treat the image as a single character. 选择合适的PSM能显著提高识别率。
- --oem： 决定使用哪个Tesseract引擎模式。
  - 0: Original Tesseract only.
  - 1: Neural nets LSTM only.
  - 2: Tesseract + LSTM.
  - 3: Default, based on what is available. 通常，LSTM（--oem 1）在很多情况下表现更好，尤其是在识别手写体或一些复杂字体时。
```
# 假设图片是单行文本，并使用LSTM引擎
config_str = r'--psm 7 --oem 1' 
text_optimized = pytesseract.image_to_string(img, lang='eng', config=config_str)
print("优化后识别：", text_optimized)
```
image_to_data()： 如果你不仅想获取文本，还想知道每个识别出来的字符或者单词在图片中的位置（边界框）、置信度等信息，这个函数就派上用场了。它返回一个DataFrame格式的数据，非常适合后续的数据处理和可视化。
```
import pandas as pd # 通常需要配合pandas来处理

data = pytesseract.image_to_data(img, output_type=pytesseract.Output.DATAFRAME)
print("\n详细识别数据：")
print(data.head()) # 查看前几行
```
这个函数对于开发更复杂的OCR应用，比如文本定位、信息抽取，非常有价值。

面对低质量图片，如何优化OCR识别效果？

说实话，Tesseract的识别效果好不好，很大程度上取决于你给它的图片质量。如果图片模糊、有噪声、倾斜或者光照不均，再强大的OCR引擎也可能“懵圈”。所以，对图片进行预处理，是提升OCR识别率的关键一步，甚至可以说，比调整Tesseract参数更重要。

常见的图像预处理技术包括：

灰度化与二值化： 大多数情况下，OCR引擎只需要黑白信息。

灰度化： 将彩色图片转换为灰度图，消除颜色信息，简化处理。
二值化： 将灰度图转换为纯黑白图，背景纯白，文字纯黑。常用的方法有大津算法（Otsu's Binarization）。这能有效分离前景文字和背景。

import cv2 # 通常用OpenCV来处理图像
import numpy as np

# 假设img_path是图片路径
img_cv = cv2.imread('low_quality.png')

# 转换为灰度图
gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)

# 大津二值化
# ret, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
# 也可以尝试自适应阈值，对光照不均的图片效果更好
binary = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
                               cv2.THRESH_BINARY, 11, 2)

# 将OpenCV图像转换为PIL Image对象，以便pytesseract使用
pil_img_binary = Image.fromarray(binary)
text_processed = pytesseract.image_to_string(pil_img_binary, lang='eng')
print("二值化后识别：", text_processed)

去噪： 图片中的噪点会干扰识别。中值滤波、高斯滤波等方法可以有效去除椒盐噪声或高斯噪声。
```
denoised = cv2.medianBlur(gray, 3) # 中值滤波，核大小为3x3
# ... 然后再进行二值化和OCR
```
倾斜校正（Deskewing）： 如果图片是倾斜的，Tesseract识别效果会大打折扣。通过计算文本的倾斜角度并旋转图片，可以显著提升识别率。Tesseract自身有OSD（Orientation and Script Detection）功能，可以通过--psm 0来获取倾斜信息，然后手动旋转。
```
# 获取图片倾斜信息（需要安装tessdata_fast/osd.traineddata）
osd_data = pytesseract.image_to_osd(img)
# print(osd_data) # 解析osd_data获取旋转角度

# 假设解析出角度为angle
# rotated = img.rotate(-angle, expand=True) # 使用PIL进行旋转
# ... 然后进行OCR
```
调整对比度和亮度： 有些图片可能太暗或太亮，导致文字难以辨认。适当调整对比度和亮度可以改善。
缩放： 对于过小或过大的图片，有时进行适当的缩放（比如放大到300 DPI）也能帮助Tesseract更好地识别。