Umi-OCR文件上传接口中文文件名处理技术解析

2025-05-04 19:51:34作者：裴麒琰

在基于Umi-OCR的文档识别系统中，开发者在调用文档上传接口时可能会遇到一个典型的技术问题：当上传包含中文文件名的文档时，服务端返回"未上传文件"的错误（错误码101）。本文将从技术原理和解决方案两个维度深入分析这一问题。

问题现象分析

当客户端尝试通过Umi-OCR的文档上传接口（/api/doc/upload）提交包含中文文件名的文档时，服务端会返回以下错误响应：

{
  "code": 101,
  "data": "[Error] No file was uploaded."
}

经过技术验证，该问题在以下环境中表现尤为明显：

客户端运行在CentOS 7 + Python 2.7环境
使用requests库进行HTTP文件上传
文件名包含中文字符（如"LSJWB4093PZ823424识别单.pdf"）

底层技术原理

该问题的根源在于HTTP协议的文件上传机制和字符编码处理：

MIME协议限制：传统的multipart/form-data格式对非ASCII字符的文件名支持存在历史遗留问题
Python requests库行为：
- 在Python 2.7环境下，requests库对非ASCII文件名的处理不够完善
- 文件流对象的name属性包含中文时可能导致MIME头构造异常
服务端解析逻辑：
- Umi-OCR服务端依赖标准的HTTP文件上传解析
- 异常的MIME头会导致文件内容无法被正确提取

解决方案实现

经过技术验证，推荐采用以下解决方案：

方案一：文件名ASCII化处理

import os
from requests_toolbelt.multipart.encoder import MultipartEncoder

original_path = "包含中文的文档.pdf"
base_name = "temp" + os.path.splitext(original_path)[1]  # 保留原始扩展名

with open(original_path, "rb") as file:
    m = MultipartEncoder(
        fields={
            "file": (base_name, file),
            "json": json.dumps(mission_options)
        }
    )
    response = requests.post(url, data=m, headers={"Content-Type": m.content_type})

方案二：使用requests-toolbelt增强库

对于需要保持原始文件名的场景，建议使用专业的多部分编码库：

from requests_toolbelt.multipart.encoder import MultipartEncoder

with open(original_path, "rb") as file:
    m = MultipartEncoder(
        fields={
            "file": ("encoded_name.pdf", file, "application/pdf"),
            "json": (None, json.dumps(mission_options), "application/json")
        }
    )
    response = requests.post(url, data=m, headers={"Content-Type": m.content_type})

最佳实践建议

统一文件名规范：
- 在系统设计阶段约定使用ASCII字符作为临时文件名
- 通过业务逻辑保持原始文件名与识别结果的关联
环境适配建议：
- Python 3.6+环境下问题出现概率较低
- 对于必须使用Python 2.7的场景，务必采用ASCII文件名

错误处理增强：

try:
    response = requests.post(...)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    logger.error(f"文件上传失败: {str(e)}")
    # 实施重试或降级策略