dddd_trainer 项目常见问题解决方案

2026-01-20 02:02:03作者：史锋燃Gardner

项目基础介绍

dddd_trainer 是一个用于训练 OCR（光学字符识别）模型的开源工具，基于 PyTorch 框架开发。该项目支持 CNN 和 CRNN 模型的训练，能够实现断点恢复、自动导出 ONNX 模型，并且可以无缝集成到 ddddocr 和 ocr_api_server 中进行部署。项目主要使用 Python 语言编写，适用于 Windows、Linux 和 macOS 系统，但需要注意的是，该项目仅支持 NVIDIA 显卡（N卡）进行训练，不支持 AMD 显卡（A卡）或其他类型的显卡。

新手使用注意事项及解决方案

1. 环境配置问题

问题描述：新手在配置深度学习环境时，可能会遇到 PyTorch 和 CUDA 版本不兼容的问题。

解决方案：

检查硬件支持：首先，访问 PyTorch 官网，查看你的系统与硬件支持的 PyTorch 版本。特别注意，如果你的显卡是 30 系列之前的 N 卡（如 2080Ti），请选择 CUDA 11 以下的版本（例如 CUDA 10.2）；如果是 30 系列 N 卡，则仅支持 CUDA 11 版本（例如 CUDA 11.3）。
安装 PyTorch：根据官网提供的安装命令，完成 PyTorch 的安装。例如，对于 CUDA 11.3 版本，可以使用以下命令：
```
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
```
安装 CUDA 和 cuDNN：根据显卡型号和系统选择合适的 CUDA 和 cuDNN 版本，并确保 cuDNN 支持的 CUDA 版本与安装的 CUDA 版本一致。安装过程中遇到问题，可以参考相关文档或搜索解决方案。

2. 数据准备问题

问题描述：新手在准备训练数据时，可能会对数据格式和组织方式感到困惑。

解决方案：

数据格式：dddd_trainer 支持两种数据导入方式：
- 从文件名导入：图片文件名中包含标签信息，例如 abcde_随机hash值.jpg。
- 从文件中导入：通过 labels.txt 文件指定图片路径和对应的标签，例如：
```
随机hash值.jpg\tabcd
酱闷肘子_随机hash值.jpg\t酱闷肘子
```

数据组织：确保数据集目录结构正确，例如：

/root/images_set/
├── labels.txt
└── images
    ├── 随机hash值.jpg
    └── 酱闷肘子_随机hash值.jpg

测试数据集：项目提供了两套基础数据集供测试，新手可以先使用这些数据集进行练习。

3. 训练过程中的常见错误

问题描述：在训练过程中，可能会遇到模型无法加载、训练中断等问题。

解决方案：

检查配置文件：确保 config.yaml 文件中的参数设置正确，特别是 CharSet 和 ImageChannel 等关键参数。
断点恢复：如果训练过程中断，可以使用以下命令恢复训练：
```
python app.py train [project_name] --resume
```
日志检查：查看训练日志，定位错误信息。常见的错误包括数据路径错误、模型配置错误等，根据日志提示进行修正。

通过以上步骤，新手可以更好地理解和使用 dddd_trainer 项目，顺利完成 OCR 模型的训练和部署。

dddd_trainer

ddddocr训练工具

项目地址：https://gitcode.com/gh_mirrors/dd/dddd_trainer

登录后查看全文