首页
/ 【亲测免费】 TexTeller 开源项目使用教程

【亲测免费】 TexTeller 开源项目使用教程

2026-01-21 04:50:19作者:苗圣禹Peter

1. 项目介绍

TexTeller 是一个基于 TrOCR 的端到端公式识别模型,能够将图像转换为相应的 LaTeX 公式。TexTeller 通过训练 80M 的图像-公式对数据集,相比使用 100K 数据集的 LaTeX-OCR,具有更强的泛化能力和更高的准确性,能够覆盖大多数使用场景。

2. 项目快速启动

2.1 克隆项目仓库

首先,克隆 TexTeller 的 GitHub 仓库到本地:

git clone https://github.com/OleehyO/TexTeller.git

2.2 安装依赖

进入项目目录并安装所需的依赖:

cd TexTeller
pip install -r requirements.txt

2.3 运行推理

进入 src/ 目录,并使用以下命令在终端中启动推理:

cd src
python inference.py -img "/path/to/image.jpg"

如果需要使用 GPU 进行推理,可以添加 --inference-mode 选项:

python inference.py -img "img.jpg" --inference-mode cuda

第一次运行时,所需的检查点将从 Hugging Face 下载。

3. 应用案例和最佳实践

3.1 公式识别

TexTeller 可以识别自然图像中的公式,并将其转换为 LaTeX 格式。这对于学术文档、技术报告和科学出版物中的公式提取非常有用。

3.2 段落识别

TexTeller 还支持整个文本段落的识别。虽然 TexTeller 具有一般的文本 OCR 能力,但我们仍然建议使用段落识别以获得更好的结果。

python inference.py -img "/path/to/image.jpg" -mix

结果将以 Markdown 格式输出。

4. 典型生态项目

4.1 Hugging Face Transformers

TexTeller 使用了 Hugging Face 的 Transformers 库进行模型训练和推理。该库提供了丰富的预训练模型和工具,支持多种 NLP 任务。

4.2 PaddleOCR

TexTeller 默认使用 PaddleOCR 模型进行中英文文本识别。PaddleOCR 是一个轻量级的 OCR 模型,支持多种语言的文本检测和识别。

通过这些生态项目的支持,TexTeller 能够提供高效、准确的公式和文本识别功能。

登录后查看全文
热门项目推荐
相关项目推荐