【限时免费】保姆级教程：GOT-OCR2_0模型本地部署与首次推理全流程实战

2026-02-04 04:32:40作者：翟江哲Frasier

写在前面：硬件门槛

在官方文档中未能找到明确的最低硬件要求。对于此类模型，通常需要较大的GPU显存。请在投入资源前，务必访问模型的官方项目主页或社区，以获取最准确的配置信息，避免不必要的硬件投资。

环境准备清单

在开始之前，请确保你的系统满足以下环境要求：

操作系统：支持Linux或Windows（推荐Linux）。
Python版本：3.10。
PyTorch版本：2.0.1。
CUDA版本：建议与PyTorch版本兼容的CUDA 11.7或更高版本。
其他依赖：
- torchvision==0.15.2
- transformers==4.37.2
- tiktoken==0.6.0
- verovio==4.3.1
- accelerate==0.28.0

模型资源获取

可以通过以下方式获取模型资源：

使用官方提供的模型下载工具（如huggingface-cli）。
从官方指定的模型仓库直接下载模型文件。

逐行解析“Hello World”代码

以下是官方提供的快速上手代码的逐行解析：

from transformers import AutoModel, AutoTokenizer

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained('ucaslcl/GOT-OCR2_0', trust_remote_code=True)
model = AutoModel.from_pretrained('ucaslcl/GOT-OCR2_0', trust_remote_code=True, low_cpu_mem_usage=True, device_map='cuda', use_safetensors=True, pad_token_id=tokenizer.eos_token_id)
model = model.eval().cuda()

# 输入测试图片
image_file = 'test.jpg'

# 普通文本OCR
res = model.chat(tokenizer, image_file, ocr_type='ocr')

# 格式化文本OCR
# res = model.chat(tokenizer, image_file, ocr_type='format')

# 细粒度OCR（可选）
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_box='')
# res = model.chat(tokenizer, image_file, ocr_type='ocr', ocr_color='')
# res = model.chat(tokenizer, image_file, ocr_type='format', ocr_color='')

# 多区域OCR（可选）
# res = model.chat_crop(tokenizer, image_file, ocr_type='ocr')
# res = model.chat_crop(tokenizer, image_file, ocr_type='format')

# 渲染格式化OCR结果（可选）
# res = model.chat(tokenizer, image_file, ocr_type='format', render=True, save_render_file='./demo.html')

print(res)

代码解析：

加载分词器和模型：
- AutoTokenizer.from_pretrained：加载预训练的分词器。
- AutoModel.from_pretrained：加载预训练的模型，并指定使用GPU（device_map='cuda'）。
输入图片：将测试图片路径赋值给image_file。
OCR功能：
- ocr_type='ocr'：普通文本OCR。
- ocr_type='format'：格式化文本OCR。
- 其他参数（如ocr_box、ocr_color）用于细粒度控制。
多区域OCR：chat_crop方法支持对图片的多区域OCR处理。
渲染结果：通过render=True可以将格式化OCR结果渲染为HTML文件。