告别竖排文字识别难题：pot-desktop让古籍/日语文档识别效率提升300%

2026-02-04 04:13:22作者：秋阔奎Evelyn

痛点直击：你还在为竖排文字识别抓狂？

无论是阅读古籍文献、处理日语资料，还是赏析书法作品，竖排文字识别始终是OCR（光学字符识别，Optical Character Recognition）领域的一大难题。传统识别工具往往将竖排文本识别为杂乱无章的横排字符，需要手动逐行调整，耗时费力。pot-desktop作为一款跨平台的划词翻译和OCR软件，通过深度优化的Tesseract引擎和多引擎协作方案，完美解决了竖排文本识别的痛点。

核心解决方案：Tesseract引擎的竖排识别优化

pot-desktop的竖排文本识别能力主要依赖于Tesseract OCR引擎的深度整合与优化。在src/services/recognize/tesseract/index.jsx中，我们可以看到关键实现代码：

export async function recognize(base64, language) {
    const {
        data: { text },
    } = await Tesseract.recognize('data:image/png;base64,' + base64, language, {
        workerPath: '/worker.min.js',
        corePath: '/tesseract-core-simd-lstm.wasm.js',
        langPath: 'https://pub-f6afb74f13c64cd89561b4714dca1c27.r2.dev',
    });
    if (language === Language.zh_cn || language === Language.zh_tw) {
        return text.replaceAll(' ', '').trim();
    } else {
        return text.trim();
    }
}

这段代码的核心优化点在于：

针对中文（简/繁体）识别结果进行空格清理，解决竖排文本识别后字符间多余空格问题
使用SIMD加速的Tesseract核心（tesseract-core-simd-lstm.wasm.js）提升识别速度
通过国内CDN加速语言包下载，确保识别模型快速加载

操作指南：三步完成竖排文字识别

步骤1：启动OCR识别窗口

通过快捷键或主界面启动OCR功能，打开识别窗口。识别窗口的UI布局在src/window/Recognize/index.jsx中定义，主要包含图片区域、文本区域和控制区域三部分。

步骤2：选择Tesseract识别引擎

在控制区域的引擎选择面板中，选择"Tesseract"引擎。Tesseract是一款开源的OCR引擎，特别适合处理复杂排版的文本，包括竖排文字。引擎配置界面在src/services/recognize/tesseract/Config.jsx中实现，默认无需额外配置即可使用竖排识别功能。

步骤3：截取竖排文本区域并识别

使用截图工具框选竖排文本区域，系统会自动进行识别并在文本区域显示结果。识别后的文本会自动去除多余空格，保持原文的阅读顺序。

多引擎协作：应对复杂场景

pot-desktop提供了多种OCR引擎选择，在src/services/recognize/index.jsx中可以看到完整的引擎列表：

export const system = _system;
export const tesseract = _tesseract;
export const baidu_ocr = _baidu_ocr;
export const baidu_accurate_ocr = _baidu_accurate_ocr;
export const baidu_img_ocr = _baidu_img_ocr;
export const iflytek_ocr = _iflytek_ocr;
// 更多引擎...