Apache Fury 反序列化时处理部分读取问题的技术解析

2025-06-25 10:37:49作者：柯茵沙

背景介绍

Apache Fury 是一个高性能的序列化框架，在 Java 生态系统中提供了快速的对象序列化和反序列化能力。在实际应用中，我们经常会遇到需要从压缩数据流（如 GZIPInputStream）中连续反序列化多个对象的情况。

问题现象

当开发者尝试从一个 GZIP 压缩文件中连续反序列化多个对象时，可能会遇到 IllegalArgumentException 异常。这种情况通常发生在使用类似以下的代码时：

try (InputStream input = new GZIPInputStream(new FileInputStream("test.dat.gz"))) {
  while (input.available() > 0) {
    MyClass obj = (MyClass) fury.deserialize(input);
  }
}

异常会指出在 Fury 的 readToBufferFromStream 方法中出现了参数校验失败。

问题根源分析

问题的本质在于 Fury 框架对输入流的读取假设过于严格。当前的实现假设输入流能够一次性提供所有需要的数据，这在处理某些类型的输入流（特别是压缩流或网络流）时并不总是成立。具体来说：

当前实现首先尝试读取4字节的长度信息
然后根据这个长度值读取完整的对象数据
如果任一步骤没有读取到预期的字节数，就会抛出异常

这种实现对于能够保证数据完整性的内存缓冲区是可行的，但对于可能分块传输的流式输入则不够健壮。

解决方案

解决这个问题的核心思路是实现一个能够处理部分读取的流读取机制。具体改进包括：

实现一个可靠的 readBytes 方法，能够处理分块读取
修改 readToBufferFromStream 方法，使用新的读取机制

改进后的 readBytes 方法实现如下：

private static int readBytes(InputStream inputStream, byte[] buffer, 
                           int offset, int size) throws IOException {
  int read = 0;
  int count = 0;
  while (read < size) {
    if ((count = inputStream.read(buffer, offset + read, size - read)) == -1) {
      break;
    }
    read += count;
  }
  return (read == 0 && count == -1) ? -1 : read;
}