Apache APISIX中PubSub/Kafka响应Protobuf解码错误问题分析

2025-05-15 06:59:36作者：平淮齐Percy

The Cloud-Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/ap/apisix

问题背景

在Apache APISIX 3.6.0版本中，当使用PubSub功能连接Kafka代理时，用户报告了一个Protobuf解码错误。具体表现为：虽然能够成功创建路由并通过WebSocket连接，也能正确从Kafka获取消息，但在尝试发送响应时会出现"type 'PubSubResp' does not exists"的错误。

问题现象

当用户按照以下流程操作时会出现问题：

创建连接到Kafka Broker的路由
通过WebSocket订阅该路由
向带有分区和偏移量的主题发送PubSubReq请求
APISIX成功接收Kafka消息后，send_response函数无法正确编码响应消息

错误日志显示："failed to encode response message, err: bad argument #1 to '?' (type 'PubSubResp' does not exists)"

技术分析

这个问题本质上是一个Protobuf状态管理问题。在APISIX的pubsub.lua实现中，当尝试编码响应消息时，Protobuf的状态(pb.state)在初始化和发送响应之间丢失了。

Protobuf在Lua中的实现需要维护一个状态来跟踪已加载的消息类型。在当前的实现中，虽然PubSubResp类型确实定义在pubsub.proto文件中，但由于状态丢失，编码器无法识别这个类型。

解决方案

正确的做法是在发送响应前保存和恢复Protobuf的状态。具体修复方法是在send_resp函数开始时添加以下代码：

local pb_old_state = pb.state(pb_state)

这个修复确保了：

在编码响应时Protobuf的状态与初始化时一致
PubSubResp类型能够被正确识别
响应消息能够被成功编码和发送

问题影响

这个bug影响了所有使用APISIX PubSub功能与Kafka集成的用户，特别是在需要接收Kafka消息并返回响应的场景下。虽然消息能够被正确获取，但由于响应编码失败，客户端无法得到预期的结果。

最佳实践

对于使用APISIX与消息队列集成的开发者，建议：

确保使用修复后的版本
在自定义插件开发时注意Protobuf状态管理
对于关键业务场景，充分测试消息收发流程
监控日志中的Protobuf编解码错误

总结

这个案例展示了在Lua中使用Protobuf时状态管理的重要性。虽然Protobuf提供了强大的序列化能力，但在多阶段处理过程中需要特别注意状态的维护。APISIX团队已经通过简单的状态保存修复了这个问题，确保了PubSub功能的完整性和可靠性。

The Cloud-Native API Gateway

项目地址：https://gitcode.com/GitHub_Trending/ap/apisix

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优