【限时免费】 PaddleOCR中的SVTR文本识别算法详解

2026-02-04 04:14:43作者：翟江哲Frasier

飞桨多语言OCR工具包（实用超轻量OCR系统，支持80+种语言识别，提供数据标注与合成工具，支持服务器、移动端、嵌入式及IoT设备端的训练与部署） Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)

项目地址：https://gitcode.com/paddlepaddle/PaddleOCR

1. 算法背景与概述

在计算机视觉领域，场景文本识别(Scene Text Recognition, STR)是一项重要的技术，它能够将自然图像中的文本内容转换为可编辑的数字字符序列。这项技术在自动驾驶、智能文档处理、图像搜索等多个领域都有广泛应用。

传统的场景文本识别模型通常采用两阶段架构：

视觉模型：负责从图像中提取特征
序列模型：负责将特征转换为字符序列

这种架构虽然准确，但存在计算复杂度高、推理速度慢等问题，限制了在实际应用中的部署。

2. SVTR算法创新点

SVTR(Scene Text Recognition with a Single Visual Model)提出了一种全新的单视觉模型架构，完全摒弃了序列建模，具有以下创新点：

单视觉模型架构：首次证明仅使用视觉模型就能达到甚至超越传统视觉-语言模型的准确率
自下而上的字符识别：从字符组件角度出发，逐步合并组件完成字符识别
多粒度特征描述：
- 局部Mixing：提取字符组件特征
- 全局Mixing：捕获字符间依赖关系
- 多尺度特征融合

3. 模型结构与原理

SVTR的核心思想是将文本识别视为一个图像标记化问题，主要包含以下几个关键组件：

3.1 输入处理

输入图像尺寸固定为3×64×256
使用重叠的patch嵌入将图像转换为token序列

3.2 混合块(Mixer Block)

局部Mixing：在小的邻域内进行特征混合，捕获字符的局部结构
全局Mixing：在整个序列范围内进行特征交互，建模字符间关系

3.3 渐进合并策略

通过多阶段设计，逐步合并字符组件
早期阶段关注笔画等细粒度特征
后期阶段关注完整字符和上下文关系

3.4 输出层

使用简单的线性分类头预测字符概率
支持CTC解码方式

4. 模型性能对比

SVTR在不同规模配置下在多个公开数据集上的表现如下：

模型	IC13	SVT	IIIT5k	IC15	SVTP	CUTE80	中文场景测试
Tiny	96.85	91.34	94.53	83.99	85.43	89.24	67.90
Small	95.92	93.04	95.03	84.70	87.91	92.01	69.00
Base	97.08	91.50	96.03	85.20	89.92	91.67	71.40
Large	97.20	91.65	96.30	86.58	88.37	95.14	72.10

从表中可以看出，随着模型规模的增大，识别准确率逐步提升，同时保持了较高的推理效率。

5. 使用指南

5.1 环境准备

使用SVTR算法前，需要配置PaddleOCR运行环境，包括：

PaddlePaddle深度学习框架
相关Python依赖库

5.2 模型训练

数据准备

英文数据集：建议使用LMDB格式数据集
中文数据集：可使用公开的中文场景文本识别基准数据集

训练命令

# 单卡训练
python3 tools/train.py -c configs/rec/rec_svtrnet.yml

# 多卡训练
python3 -m paddle.distributed.launch --gpus '0,1,2,3' tools/train.py -c configs/rec/rec_svtrnet.yml

5.3 模型评估

python3 -m paddle.distributed.launch --gpus '0' tools/eval.py \
-c ./rec_svtr_tiny_none_ctc_en_train/rec_svtr_tiny_6local_6global_stn_en.yml \
-o Global.pretrained_model=./rec_svtr_tiny_none_ctc_en_train/best_accuracy

5.4 模型预测

python3 tools/infer_rec.py \
-c ./rec_svtr_tiny_none_ctc_en_train/rec_svtr_tiny_6local_6global_stn_en.yml \
-o Global.infer_img='./doc/imgs_words_en/word_10.png' \
Global.pretrained_model=./rec_svtr_tiny_none_ctc_en_train/best_accuracy

6. 推理部署

6.1 Python推理

首先将训练好的模型导出为推理格式：

python3 tools/export_model.py \
-c ./rec_svtr_tiny_none_ctc_en_train/rec_svtr_tiny_6local_6global_stn_en.yml \
-o Global.pretrained_model=./rec_svtr_tiny_none_ctc_en_train/best_accuracy \
Global.save_inference_dir=./inference/rec_svtr_tiny_stn_en

然后进行推理：

python3 tools/infer/predict_rec.py \
--image_dir='./doc/imgs_words_en/word_10.png' \
--rec_model_dir='./inference/rec_svtr_tiny_stn_en/' \
--rec_algorithm='SVTR' \
--rec_image_shape='3,64,256' \
--rec_char_dict_path='./ppocr/utils/ic15_dict.txt'

7. 优化建议

学习率调整：当改变batch size时，应等比例调整学习率
数据增强：可尝试RecConAug和RecAug等增强策略
架构调整：
- 不使用STN时，可将Local Mixer替换为Conv
- 尝试后Normalization策略(prenorm=True)
超参数搜索：对embed_dim、depth、num_heads等参数进行网格搜索

8. 常见问题解答

GPU vs CPU性能：SVTR在GPU上性能更优，CPU上相比优化后的卷积网络优势不明显
ONNX转换问题：确保使用最新版本的paddle2onnx和onnxruntime
长文本识别优化：可调整模型参数out_char_num为W//4、W//8或W//12

SVTR作为一种创新的单视觉模型文本识别方法，在精度和效率之间取得了良好平衡，非常适合实际应用场景中的部署需求。

PaddleOCR