【免费下载】 Tesseract 中文简体训练数据（chi_sim.traineddata）2022最新版

2026-01-19 11:21:00作者：侯霆垣

简介

本仓库提供Tesseract OCR引擎的中文简体（chi_sim）训练数据文件chi_sim.traineddata的2022最新版本。该文件是Tesseract识别中文简体字符的关键资源，适用于需要进行中文简体文本识别的项目。

文件说明

文件名: chi_sim.traineddata
版本: 2022最新版
用途: 用于Tesseract OCR引擎的中文简体字符识别

使用方法

下载文件: 点击仓库中的chi_sim.traineddata文件进行下载。
放置路径: 将下载的chi_sim.traineddata文件放置在Tesseract的tessdata目录下。
配置Tesseract: 确保Tesseract配置中指定使用chi_sim语言包。

tesseract input.png output -l chi_sim

注意事项

请确保Tesseract版本与训练数据版本兼容。
如有其他语言需求，请参考Tesseract官方文档获取更多语言包。

贡献

欢迎提交问题和改进建议。如果您有更好的训练数据或更新版本，欢迎提交PR。

许可证

本仓库中的资源文件遵循Tesseract的开源许可证。具体信息请参考Tesseract官方文档。

希望这个资源文件能帮助您顺利进行中文简体文本识别！

Tesseract中文简体训练数据chi_sim.traineddata2022最新版

项目地址：https://gitcode.com/open-source-toolkit/99b5e

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

450

417

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started