简介：本文详细介绍如何通过 Tesseract OCR 引擎与 C# 结合，实现图像文字的精准识别。涵盖环境配置、核心代码实现、性能优化及实际应用场景，为开发者提供一站式解决方案。

使用 Tesseract 在 C# 中进行光学字符识别（OCR）：完整教程

引言

光学字符识别（OCR）技术已成为数字化文档处理的核心工具，尤其在发票识别、档案数字化、自动化表单处理等场景中发挥着关键作用。Tesseract 作为开源 OCR 引擎的标杆，凭借其高精度、多语言支持和可扩展性，成为 C# 开发者实现 OCR 功能的首选方案。本文将系统阐述如何通过 C# 调用 Tesseract 完成图像到文本的转换，涵盖环境搭建、核心代码实现、性能优化及典型应用场景。

一、Tesseract OCR 技术概述

1.1 Tesseract 的核心优势

Tesseract 由 Google 维护，支持超过 100 种语言，具备以下特性：

高精度识别：通过 LSTM 深度学习模型提升复杂字体和低质量图像的识别率
多语言支持：内置中文、英文等语言包，可自定义训练模型
开源生态：完全免费，支持商业用途，社区活跃度高

1.2 C# 集成方案

在 C# 中使用 Tesseract 主要有两种方式：

Tesseract.NET SDK：封装原生 Tesseract 的 .NET 库
IronOCR：商业库，提供更简洁的 API（本文以开源方案为主）

二、环境配置与依赖安装

2.1 开发环境准备

Visual Studio 2019+：推荐使用最新版本
.NET Framework 4.6.1+ 或 .NET Core 3.1+
NuGet 包管理器：用于安装 Tesseract 依赖

2.2 安装 Tesseract 引擎

下载 Tesseract 主程序：
- Windows 用户可从 UB Mannheim 获取安装包
- 或通过 Chocolatey 安装：
```
choco install tesseract
```
安装语言数据包：
- 默认包含英文包（eng），中文需单独下载：
  - 简体中文：chi_sim.traineddata
  - 繁体中文：chi_tra.traineddata
- 将语言包放入 Tesseract 安装目录的 tessdata 文件夹

2.3 创建 C# 项目并安装 NuGet 包

新建 C# 控制台/WPF/ASP.NET Core 项目
通过 NuGet 安装 Tesseract 包：
```
Install-Package Tesseract
```

三、核心代码实现

3.1 基础 OCR 识别

using Tesseract;
using System;
using System.Drawing;
class Program
{
    static void Main()
    {
        try
        {
            // 1. 指定 Tesseract 数据路径（包含 tessdata 文件夹）
            string tessDataPath = @"C:\Program Files\Tesseract-OCR\tessdata";
            // 2. 创建引擎实例（参数：语言包、数据路径）
            using (var engine = new TesseractEngine(tessDataPath, "eng", EngineMode.Default))
            {
                // 3. 加载图像
                using (var img = Pix.LoadFromFile("test.png"))
                {
                    // 4. 创建页面对象
                    using (var page = engine.Process(img))
                    {
                        // 5. 获取识别结果
                        string text = page.GetText();
                        Console.WriteLine("识别结果：\n" + text);
                        // 6. 获取置信度（可选）
                        float confidence = page.GetMeanConfidence();
                        Console.WriteLine($"平均置信度：{confidence:F2}");
                    }
                }
            }
        }
        catch (Exception ex)
        {
            Console.WriteLine($"错误：{ex.Message}");
        }
    }
}

3.2 中文识别配置

修改语言参数为 "chi_sim"（简体中文）或 "chi_tra"（繁体中文）：

using (var engine = new TesseractEngine(tessDataPath, "chi_sim", EngineMode.Default))

3.3 图像预处理优化

OCR 前对图像进行预处理可显著提升识别率：

// 使用 System.Drawing 进行基础预处理
public static Bitmap PreprocessImage(string inputPath, string outputPath)
{
    using (var original = new Bitmap(inputPath))
    {
        // 转换为灰度图
        var grayImage = new Bitmap(original.Width, original.Height);
        using (var g = Graphics.FromImage(grayImage))
        {
            var colorMatrix = new System.Drawing.Imaging.ColorMatrix(
                new float[][]
                {
                    new float[] {0.299f, 0.299f, 0.299f, 0, 0},
                    new float[] {0.587f, 0.587f, 0.587f, 0, 0},
                    new float[] {0.114f, 0.114f, 0.114f, 0, 0},
                    new float[] {0, 0, 0, 1, 0},
                    new float[] {0, 0, 0, 0, 1}
                });
            var attributes = new System.Drawing.Imaging.ImageAttributes();
            attributes.SetColorMatrix(colorMatrix);
            g.DrawImage(original, 
                new Rectangle(0, 0, original.Width, original.Height),
                0, 0, original.Width, original.Height,
                GraphicsUnit.Pixel, attributes);
        }
        // 二值化（可选）
        grayImage.Save(outputPath, System.Drawing.Imaging.ImageFormat.Png);
        return grayImage;
    }
}

四、性能优化与高级功能

4.1 多线程处理

Parallel.For(0, 10, i => 
{
    using (var engine = new TesseractEngine(tessDataPath, "eng"))
    {
        var img = Pix.LoadFromFile($"image_{i}.png");
        var page = engine.Process(img);
        // 处理结果...
    }
});

4.2 区域识别（ROI）

// 定义识别区域（左上角X,Y，宽度，高度）
var rect = new Rect(100, 50, 300, 200);
using (var img = Pix.LoadFromFile("test.png"))
{
    // 裁剪图像
    using (var subImg = img.Crop(rect.ToRectangle()))
    {
        using (var page = engine.Process(subImg))
        {
            // 处理局部区域...
        }
    }
}

4.3 自定义训练模型

使用 jtessboxeditor 生成训练数据

通过 tesseract.exe 训练模型：

tesseract eng.training_text.tif eng.training_text nobatch box.train
unicharset_extractor eng.training_text.box
mftraining -F font_properties -U unicharset -O eng.unicharset eng.training_text.tr

五、实际应用场景

5.1 发票识别系统

// 识别发票关键字段
public class InvoiceOCR
{
    public static (string Number, string Date, decimal Amount) ExtractData(string imagePath)
    {
        using (var engine = new TesseractEngine(@"tessdata", "chi_sim"))
        {
            using (var img = Pix.LoadFromFile(imagePath))
            {
                var page = engine.Process(img);
                var text = page.GetText();
                // 正则表达式提取关键信息
                var numberMatch = Regex.Match(text, @"发票号码[:：]?\s*(\w+)");
                var dateMatch = Regex.Match(text, @"开票日期[:：]?\s*(\d{4}-\d{2}-\d{2})");
                var amountMatch = Regex.Match(text, @"金额[:：]?\s*(\d+\.\d{2})");
                return (
                    numberMatch.Success ? numberMatch.Groups[1].Value : "",
                    dateMatch.Success ? dateMatch.Groups[1].Value : "",
                    amountMatch.Success ? decimal.Parse(amountMatch.Groups[1].Value) : 0
                );
            }
        }
    }
}

5.2 自动化表单处理

结合 PDF 库（如 iTextSharp）实现 PDF 表单的 OCR 提取：

public static Dictionary<string, string> ExtractFormData(string pdfPath)
{
    var result = new Dictionary<string, string>();
    using (var reader = new PdfReader(pdfPath))
    {
        for (int i = 1; i <= reader.NumberOfPages; i++)
        {
            var strategy = new SimpleTextExtractionStrategy();
            var currentText = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
            // 解析键值对
            var lines = currentText.Split('\n');
            foreach (var line in lines)
            {
                if (line.Contains(":"))
                {
                    var parts = line.Split(new[] { ':' }, 2);
                    if (parts.Length == 2)
                    {
                        result[parts[0].Trim()] = parts[1].Trim();
                    }
                }
            }
        }
    }
    return result;
}

六、常见问题解决方案

6.1 识别率低问题

原因：图像质量差、字体不支持、语言包缺失

解决方案：

预处理：二值化、去噪、对比度增强

使用 psm 参数调整页面分割模式：

var engine = new TesseractEngine(tessDataPath, "eng", EngineMode.Default)
{
    DefaultPageSegMode = PageSegMode.AutoOsd // 自动检测布局
};

6.2 内存泄漏问题

原因：未正确释放 Pix 和 Page 对象