FastDeploy中OCRResult结构体字段缺失问题解析

2025-06-26 15:09:25作者：郁楠烈Hubert

⚡️An Easy-to-use and Fast Deep Learning Model Deployment Toolkit for ☁️Cloud 📱Mobile and 📹Edge. Including Image, Video, Text and Audio 20+ main stream scenarios and 150+ SOTA models with end-to-end optimization, multi-platform and multi-framework support.

项目地址：https://gitcode.com/gh_mirrors/fa/FastDeploy

问题背景

在FastDeploy项目的1.0.7版本中，vision模块的OCRResult结构体在C++头文件中定义了多个字段，包括表格识别相关的table_boxes和table_structure等字段。然而，在Python绑定(pybind11)部分却遗漏了这些字段的导出，导致Python开发者无法直接访问这些重要的表格识别结果。

技术细节分析

OCRResult结构体在C++层面设计得相当完善，包含了以下关键字段：

基础OCR字段：
- boxes: 存储检测框坐标的二维数组
- text: 识别出的文本内容
- rec_scores: 识别置信度分数
- cls_scores和cls_labels: 分类相关分数和标签
表格识别专用字段：
- table_boxes: 表格检测框坐标
- table_structure: 表格结构信息
- table_html: 表格HTML表示形式

然而，在Python绑定实现中，只导出了基础OCR字段，遗漏了表格识别相关的三个重要字段。这种不一致性会导致以下问题：

Python开发者无法获取完整的表格识别结果
表格识别功能在Python端无法完整使用
跨语言功能不一致，影响开发体验

解决方案探讨

针对这一问题，技术团队可以考虑以下几种解决方案：

直接补充绑定字段：最简单的解决方案是在pybind11绑定代码中添加缺失的三个表格识别字段。这种方法改动最小，能快速解决问题。
派生专用结果类：更面向对象的做法是创建一个新的TableOCRResult类，继承自OCRResult，专门处理表格识别相关字段。这种设计更符合单一职责原则，但需要更多重构工作。
版本兼容性考虑：在添加新字段时，需要考虑向后兼容性，确保老版本代码不会因为新字段而出现问题。

技术实现建议

如果采用第一种直接补充字段的方案，pybind11绑定代码应修改为：

pybind11::class_<vision::OCRResult>(m, "OCRResult")
    .def(pybind11::init())
    .def_readwrite("boxes", &vision::OCRResult::boxes)
    .def_readwrite("text", &vision::OCRResult::text)
    .def_readwrite("rec_scores", &vision::OCRResult::rec_scores)
    .def_readwrite("cls_scores", &vision::OCRResult::cls_scores)
    .def_readwrite("cls_labels", &vision::OCRResult::cls_labels)
    .def_readwrite("table_boxes", &vision::OCRResult::table_boxes)
    .def_readwrite("table_structure", &vision::OCRResult::table_structure)
    .def_readwrite("table_html", &vision::OCRResult::table_html)
    .def("__repr__", &vision::OCRResult::Str)
    .def("__str__", &vision::OCRResult::Str);