Apache Fury反序列化Thrift对象失败问题分析与解决方案

2025-06-25 22:17:19作者：虞亚竹Luna

问题背景

在Apache Fury项目中，当使用Java语言进行Thrift对象的反序列化操作时，可能会遇到一个特定的异常情况。具体表现为：当使用较小的缓冲区初始化Fury进行反序列化时，系统会抛出"DeserializationException"异常，并伴随"TTransportException"错误，提示"Remote side has closed"。

技术分析

问题根源

该问题的核心在于Thrift对象序列化/反序列化机制与Fury框架的交互方式。Thrift对象通常实现了自定义的readObject和writeObject方法，这使得Fury框架会使用ObjectStreamSerializer来处理这些对象以保持兼容性。

在Thrift的readObject方法内部，会调用TTransport.readAll方法来读取字节数据。这个方法的设计是必须读取到指定长度的数据才会返回，否则就会抛出异常。而Fury框架重写了ObjectInputStream的实现，其read方法在某些情况下（特别是缓冲区剩余字节为0时）会返回0，这与标准JDK实现的行为不同。

技术细节对比

标准JDK的ObjectInputStream.read方法规范明确指出：

可以读取少于请求长度的字节数
但不会在请求长度非零时返回0
返回0仅表示流结束（EOF）

而Fury的实现中，当缓冲区剩余字节不足时：

如果剩余字节小于请求长度，会返回实际读取的剩余字节数
如果剩余字节为0，则会返回0

这种实现差异导致了与Thrift库的不兼容，因为Thrift的TTransport.readAll方法不接受返回0的情况（除非请求长度本身为0）。

解决方案

修复思路

正确的解决方案是修改FuryObjectInputStream.read方法的实现，使其行为与标准JDK实现保持一致，具体来说：

当请求长度非零时，永远不返回0
只有在流结束时才返回-1
在缓冲区为空时，应该尝试重新填充缓冲区，而不是直接返回0

实现要点

修改后的实现应确保：

保持与JDK标准行为的一致性
正确处理流结束情况
在缓冲区不足时进行适当的缓冲处理
避免无限循环或性能下降

技术影响

这一修复将带来以下好处：

提高与Thrift库的兼容性
保持与标准Java序列化行为的一致性
增强框架的稳定性和可靠性
避免潜在的无限循环风险

最佳实践

对于使用Fury框架处理Thrift对象的开发者，建议：

确保使用最新版本的Fury框架
在性能允许的情况下，使用适当大小的缓冲区
对于关键业务场景，进行充分的序列化/反序列化测试
关注框架的更新日志，了解相关改进

总结

通过对Fury框架中ObjectInputStream实现的修正，解决了与Thrift对象反序列化的兼容性问题。这一改进不仅修复了特定场景下的异常问题，还使框架行为更加符合Java标准规范，提高了整体稳定性和可靠性。对于依赖Fury进行高性能序列化的Thrift应用，这一改进具有重要意义。

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

deepin linux kernel

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。