简介：本文记录小猪在Python学习中使用pytesseract库进行文字识别的实践过程，包括环境搭建、基础功能演示及优化技巧，帮助读者快速掌握OCR技术入门方法。

小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验

一、OCR技术初探与pytesseract定位

在数字化办公场景中，将图片中的文字转换为可编辑文本（OCR技术）具有重要价值。小猪在处理扫描版合同和手写笔记时，发现传统手动录入效率低下且易出错。经过调研，他锁定了Tesseract OCR引擎——这款由Google维护的开源工具，支持100+种语言识别，而pytesseract正是其Python封装库。

相较于商业API（如某云OCR服务需付费调用），pytesseract的零成本特性对学习者极具吸引力。其工作原理包含图像预处理、字符分割、特征匹配三个阶段，通过深度学习模型实现文字识别。但需注意，该库对复杂背景或艺术字体的识别效果有限，这为后续优化埋下伏笔。

二、开发环境搭建全流程

1. 基础依赖安装

在Windows系统下，小猪通过pip install pytesseract pillow完成基础库安装。但首次运行时遇到TesseractNotFoundError，原来还需单独安装Tesseract OCR引擎本体：

# Windows安装命令（需管理员权限）
choco install tesseract  # 使用Chocolatey包管理器
# 或手动下载安装包

Mac用户可通过Homebrew快速安装：

brew install tesseract

2. 环境变量配置

安装后需将Tesseract路径添加至系统环境变量。小猪在Windows中通过”此电脑→属性→高级系统设置→环境变量”，在Path变量后追加C:\Program Files\Tesseract-OCR（默认安装路径）。验证是否成功可通过命令行执行：

tesseract --version
# 应输出类似"tesseract 5.3.0"的版本信息

3. 虚拟环境隔离实践

为避免依赖冲突，小猪创建了专用虚拟环境：

python -m venv ocr_env
source ocr_env/bin/activate  # Linux/Mac
.\ocr_env\Scripts\activate  # Windows
pip install -r requirements.txt  # 包含pytesseract和Pillow

三、基础功能实战演示

1. 简单图片识别

小猪首先测试标准印刷体识别：

from PIL import Image
import pytesseract
# 设置Tesseract路径（Windows特有）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
def simple_ocr(image_path):
    img = Image.open(image_path)
    text = pytesseract.image_to_string(img, lang='chi_sim+eng')  # 中文简体+英文
    print("识别结果：\n", text)
simple_ocr("test_cn.png")

运行后成功输出图片中的中英文混合文本，但发现某些生僻字被误识别为形似字符。

2. 区域识别与格式控制

通过config参数可指定识别区域和输出格式：

# 仅识别左上角(100,100)到(400,400)的区域
custom_config = r'--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
number_text = pytesseract.image_to_string(
    img, 
    config=custom_config,
    boxes=True  # 输出字符位置信息
)

其中--psm 6表示假设文本为统一区块，whitelist参数可限制识别字符集，显著提升数字识别准确率。

3. PDF文件处理方案

对于扫描版PDF，小猪采用两步转换法：

import pdf2image
def pdf_to_text(pdf_path):
    # 将PDF转为图片列表
    images = pdf2image.convert_from_path(pdf_path, dpi=300)
    full_text = ""
    for i, image in enumerate(images):
        text = pytesseract.image_to_string(image, lang='chi_sim')
        full_text += f"\n第{i+1}页：\n{text}"
    return full_text

通过提高DPI（每英寸点数）至300，有效解决了低分辨率PDF的识别模糊问题。

四、性能优化实战技巧

1. 图像预处理增强

小猪发现直接识别效果不佳时，通过OpenCV进行预处理：

import cv2
def preprocess_image(img_path):
    img = cv2.imread(img_path)
    # 转为灰度图
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 二值化处理
    thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]
    # 降噪
    denoised = cv2.fastNlMeansDenoising(thresh, h=10)
    return denoised
processed_img = preprocess_image("noisy.png")
cv2.imwrite("cleaned.png", processed_img)

经测试，该处理使复杂背景图片的识别准确率提升约35%。

2. 多语言混合识别策略

面对中英文混排文档时，需指定语言包：

# 下载中文语言包（需单独安装）
# Windows安装路径：Tesseract安装目录/tessdata
text = pytesseract.image_to_string(
    img, 
    lang='chi_sim+eng',  # 同时加载中英文模型
    config='--psm 6'
)

若识别效果仍不理想，可尝试调整--oem参数（0=传统算法，3=LSTM神经网络）。

3. 批量处理自动化脚本

为提高效率，小猪编写了批量处理脚本：

import os
def batch_ocr(input_dir, output_file):
    results = []
    for filename in os.listdir(input_dir):
        if filename.lower().endswith(('.png', '.jpg', '.jpeg')):
            img_path = os.path.join(input_dir, filename)
            text = pytesseract.image_to_string(Image.open(img_path))
            results.append(f"{filename}:\n{text}\n{'='*50}")
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write('\n'.join(results))
    print(f"处理完成，结果保存至{output_file}")
batch_ocr("images/", "ocr_results.txt")

五、常见问题解决方案

1. 安装失败排查

错误现象：ModuleNotFoundError: No module named 'pytesseract'

解决方案：确认是否在虚拟环境中安装，或尝试升级pip后重装

pip install --upgrade pip
pip uninstall pytesseract pillow
pip install pytesseract pillow

2. 识别乱码处理

当输出出现方框或乱码时：

检查语言包是否完整安装（tessdata目录下应有chi_sim.traineddata等文件）
调整--psm模式（如从默认的3改为6）
增加图像对比度后再识别

3. 性能瓶颈优化

对于大批量处理，建议：

使用多线程加速（concurrent.futures模块）
降低图像分辨率（但需保持文字清晰）
将结果缓存至数据库而非重复识别

六、进阶学习建议

模型训练：通过jTessBoxEditor工具训练自定义字体模型
深度学习集成：结合EasyOCR或PaddleOCR提升复杂场景识别率
API封装：将OCR功能封装为REST API服务（FastAPI框架推荐）
错误分析：建立识别错误样本库，针对性优化预处理流程

通过本次实践，小猪不仅掌握了pytesseract的基础用法，更深刻理解了OCR技术的适用场景与局限性。他计划在下阶段研究中探索如何将传统OCR与深度学习模型相结合，以应对手写体识别等更高阶挑战。

小猪的Python实战：pytesseract文字识别初探