JeecgBoot项目中Zip解压异常问题的分析与解决方案

2025-05-02 19:45:35作者：姚月梅Lane

AI低代码平台，支持「低代码 + 零代码」双模式：零代码 5 分钟搭建业务系统，低代码模式一键生成前后端代码。内置AI 应用，支持AI聊天、知识库、流程编排、MCP与插件，支持各种模型。Skills能力实现：一句话画流程图、设计表单、生成系统。引领 AI生成→在线配置→代码生成→手工合并的开发模式，解决Java项目80%的重复工作，快速提高效率，又不失灵活性。

项目地址：https://gitcode.com/GitHub_Trending/je/jeecg-boot

问题背景

在JeecgBoot 3.8.0版本的知识库功能中，用户上传ZIP压缩包进行向量化处理时，系统偶尔会抛出java.util.zip.ZipException: invalid CEN header (bad entry name)异常。这种情况通常发生在压缩包中包含非ASCII字符（如中文）文件名时，由于编码格式不匹配导致解压失败。

技术分析

异常原因

Java标准库中的ZipInputStream默认使用UTF-8编码处理文件名，而Windows系统生成的ZIP文件通常使用本地编码（如GBK）。当遇到中文文件名时，这种编码不匹配会导致解压失败，抛出ZipException异常。

解决方案

针对这一问题，开发团队采用了以下解决方案：

异常捕获与重试机制：首先尝试使用默认的UTF-8编码解压，如果失败则捕获异常，改用GBK编码重试。
编码适配处理：通过ZipFile类的构造函数指定编码格式，确保能够正确处理不同编码的文件名。
代码封装优化：将解压逻辑封装为独立方法，提高代码复用性和可维护性。

实现细节

核心解决代码逻辑如下：

public static void unzip(File zipFile, File destDir) throws IOException {
    try {
        // 首先尝试UTF-8编码解压
        unzipWithCharset(zipFile, destDir, StandardCharsets.UTF_8);
    } catch (ZipException e) {
        // 如果失败，改用GBK编码重试
        unzipWithCharset(zipFile, destDir, Charset.forName("GBK"));
    }
}

private static void unzipWithCharset(File zipFile, File destDir, Charset charset) throws IOException {
    try (ZipFile zip = new ZipFile(zipFile, charset)) {
        Enumeration<? extends ZipEntry> entries = zip.entries();
        while (entries.hasMoreElements()) {
            ZipEntry entry = entries.nextElement();
            File entryFile = new File(destDir, entry.getName());
            // 确保父目录存在
            if (entry.isDirectory()) {
                entryFile.mkdirs();
            } else {
                entryFile.getParentFile().mkdirs();
                try (InputStream in = zip.getInputStream(entry);
                     OutputStream out = new FileOutputStream(entryFile)) {
                    IOUtils.copy(in, out);
                }
            }
        }
    }
}