简介：本文详细介绍PaddleOCR v4模型转换为RKNN格式并部署到瑞芯微（Rockchip）NPU的完整流程，涵盖模型选择、转换配置、硬件适配及性能优化等关键环节，助力开发者实现高效边缘端OCR部署。

一、背景与部署价值

PaddleOCR v4作为百度开源的OCR工具库，在检测、识别和方向分类任务中支持多语言、多模型架构（如PP-OCRv4、SVTR等），其轻量化设计（最小模型仅3.5M）使其成为边缘设备部署的理想选择。RKNN（Rockchip Neural Network）是瑞芯微推出的跨平台NPU模型格式，通过模型量化、算子融合等技术，可将计算密集型任务卸载至NPU加速，典型场景下推理速度可提升3-5倍，同时降低功耗。部署PaddleOCR到RKNN的核心价值在于：在低成本硬件上实现实时OCR识别，适用于工业检测、智能零售、车载HUD等边缘场景。

二、部署前准备

1. 硬件与软件环境

硬件：支持RKNN的瑞芯微芯片（如RV1126、RK3566、RK3588），需确认NPU版本与算力（TOPS）。
软件：
- 主机端：Ubuntu 20.04/22.04，Python 3.8+，RKNN Toolkit 2（最新版v2.0.5+）。
- 目标设备：Rockchip提供的交叉编译工具链及NPU驱动。
模型：PaddleOCR v4官方预训练模型（推荐PP-OCRv4-det/rec/cls系列），或自训练模型（需导出为inference格式）。

2. 环境配置步骤

# 安装RKNN Toolkit 2（以pip为例）
pip install rknn-toolkit2 -i https://pypi.tuna.tsinghua.edu.cn/simple
# 验证安装
rknn --version

注意事项：RKNN Toolkit需与目标设备NPU版本匹配（如RV1126对应v1.x，RK3588对应v2.x）。

三、模型转换流程

1. 模型导出

使用PaddleOCR的tools/export_model.py将训练好的模型导出为inference格式：

python tools/export_model.py \
  -c configs/rec/rec_icdar15_train.yml \
  -o Global.pretrained_model=./output/rec_CRNN/best_accuracy \
  Global.save_inference_dir=./inference_model/rec_CRNN

输出文件包括：model.pdmodel（模型结构）、model.pdiparams（参数）、model.pdiparams.info（元数据）。

2. RKNN模型转换

（1）基础转换

from rknn.api import RKNN
rknn = RKNN()
ret = rknn.load_paddle(model_path='./inference_model/rec_CRNN/model.pdmodel',
                       params_path='./inference_model/rec_CRNN/model.pdiparams')
# 配置目标平台（以RK3588为例）
ret = rknn.config(target_platform='rk3588',
                  mean_values=[[127.5, 127.5, 127.5]],
                  std_values=[[127.5, 127.5, 127.5]],
                  quantized_dtype='asymmetric_affine-u8')  # 8位量化
# 编译模型
ret = rknn.build(do_quantization=True)  # 启用量化
ret = rknn.export_rknn('./output/rec_CRNN.rknn')
rknn.release()

（2）关键参数说明

量化策略：
- asymmetric_affine-u8：非对称量化，精度损失较小，适合大多数场景。
- symmetric_affine-u8：对称量化，硬件支持更友好，但可能损失精度。
输入预处理：需与PaddleOCR训练时的预处理一致（如归一化、通道顺序）。
算子支持：通过rknn.get_available_devices()检查目标平台支持的算子，若存在不支持的算子（如某些自定义OP），需手动替换或实现。

3. 常见问题处理

错误：Unsupported OP XXX：
- 解决方案：检查RKNN Toolkit文档中的算子支持列表，替换为等效算子（如用Conv2D+ReLU6替代Conv2D+HardSwish）。
精度下降：
- 调试方法：在RKNN Toolkit中启用quantized_dynamic_range调试模式，对比FP32与INT8的输出差异。

四、目标设备部署

1. 模型加载与推理

#include "rknn_api.h"
rknn_context ctx = NULL;
int ret = rknn_init(&ctx, "./rec_CRNN.rknn", 0, 0);
if (ret < 0) {
    printf("rknn_init fail! ret=%d\n", ret);
    return -1;
}
// 输入数据（需与模型预处理一致）
rknn_input inputs[1];
inputs[0].index = 0;
inputs[0].type = RKNN_TENSOR_UINT8;
inputs[0].size = 3 * 32 * 100;  // 假设输入为3x32x100的RGB图像
inputs[0].buf = input_data;
ret = rknn_inputs_set(ctx, 1, inputs);
ret = rknn_run(ctx);
// 获取输出
rknn_output outputs[1];
ret = rknn_outputs_get(ctx, 1, outputs, NULL);
float* output_data = (float*)outputs[0].buf;

2. 性能优化技巧

NPU与CPU协同：将OCR的检测（Det）、识别（Rec）、分类（Cls）模型分别部署，利用多核并行。
内存复用：通过rknn_set_input_output_memory复用输入/输出缓冲区，减少内存拷贝。
动态分辨率：在RKNN Toolkit中配置dynamic_range，支持变长输入（需硬件支持）。

五、完整流程示例

以PP-OCRv4-det模型为例：

导出模型：

python tools/export_model.py \
-c configs/det/det_mv3_db.yml \
-o Global.pretrained_model=./output/det_db/best_accuracy \
Global.save_inference_dir=./inference_model/det_db

转换为RKNN：

rknn = RKNN()
rknn.load_paddle(model_path='./inference_model/det_db/model.pdmodel',
              params_path='./inference_model/det_db/model.pdiparams')
rknn.config(target_platform='rk3588',
         mean_values=[[123.675, 116.28, 103.53]],
         std_values=[[58.395, 57.12, 57.375]],
         quantized_dtype='asymmetric_affine-u8')
rknn.build(do_quantization=True)
rknn.export_rknn('./output/det_db.rknn')

目标设备推理：
- 使用OpenCV读取图像并预处理（归一化、缩放至模型输入尺寸）。
- 调用rknn_run执行推理，解析输出（DB模型的输出为概率图和阈值图）。

六、总结与建议

精度验证：在转换后对比RKNN与PaddleOCR原始输出的文本框坐标和识别结果，确保误差在可接受范围内（如IoU>0.9）。
硬件选型：根据OCR复杂度选择NPU算力，如简单场景可用RV1126（0.5TOPS），复杂场景推荐RK3588（3.0TOPS）。
持续更新：关注RKNN Toolkit的版本更新，新版本可能支持更多PaddleOP算子或优化量化策略。

PaddleOCR v4部署RKNN全流程指南：从模型转换到硬件加速