【亲测免费】 Pix2Text 教程

2026-01-16 10:17:06作者：裘旻烁

An Open-Source Python3 tool with SMALL models for recognizing layouts, tables, math formulas (LaTeX), and text in images, converting them into Markdown format. A free alternative to Mathpix, empowering seamless conversion of visual content into text-based representations. 80+ languages are supported.

项目地址：https://gitcode.com/gh_mirrors/pi/Pix2Text

1. 项目介绍

Pix2Text 是一款基于 Python3 的开源工具，旨在识别图像中的布局、表格、数学公式、文本等，并将其转换成Markdown格式。它是Mathpix的免费替代品，支持80多种语言，旨在实现从视觉内容到文本表示的无缝转换。该项目由Breezedeus开发，并在持续维护中提升性能，如最新的V1.1.1版本引入了更好的数学公式检测模型。

2. 项目快速启动

安装依赖

要安装Pix2Text，首先确保你的环境中已安装Python 3.x。然后，使用以下命令安装项目及其多语言支持：

pip install pix2text[multilingual]

如果你的网络连接较慢，你可以选择使用阿里云镜像加速：

pip install pix2text -i https://mirrors.aliyun.com/pypi/simple/

快速使用

在安装完成后，你可以通过命令行工具进行测试。使用 p2t serve 启动HTTP服务：

p2t serve -l en zh_sim -H 0.0.0.0 -p 8503

这将启动一个监听在http://0.0.0.0:8503/pix2text的服务，接受图片输入并返回识别结果。

你可以通过curl或任何HTTP客户端发送请求至该服务：

curl -X POST \
     -F "file_type=page" \
     -F "resized_shape=768" \
     -F "embed_sep=$$ " \
     -F "isolated_sep=$$\n\n$$" \
     -F "image=@path/to/image.jpg" \
     http://0.0.0.0:8503/pix2text

请将path/to/image.jpg替换为你想要处理的图片路径。

3. 应用案例和最佳实践

学术论文图像转文本：使用Pix2Text将扫描的论文图像中的公式和表格转换成可编辑的Markdown，便于重用和共享。
教育材料重构：将复杂的数学解题步骤图转换成Markdown公式，方便在线教育平台的展示和交互。
设计稿转文本：设计师可以利用Pix2Text将设计稿中的文本部分自动提取出来，提高工作效率。

最佳实践包括：

对于大型图片，先调整大小以减少处理时间。
使用合适的embed_sep和isolated_sep参数，以正确地分离公式和普通文本。
尝试不同的语言设置以获得最佳识别效果。

4. 典型生态项目

breezedeus/pix2text-mfd: 提供新的数学公式检测模型，显著提升了公式检测的准确性。
Pix2Text-Mac: 专为MacOS提供的桌面应用程序，让用户更便捷地使用Pix2Text。
相关OCR和图像处理库: Pix2Text与其他OCR技术结合，如OpenCV、PyTesseract等，扩展其功能范围。

若需获取更多关于Pix2Text的信息及更新，请访问项目官网。

本教程涵盖了Pix2Text的基本介绍、安装及使用，以及一些实际应用和相关生态项目。希望对你在使用Pix2Text时提供帮助。如遇到问题，可参考项目文档或联系开发者社区寻求解答。

Pix2Text