Apache Pulsar KinesisSink组件中JSON扁平化处理SchemaType.BYTES类型的问题解析

2025-05-15 14:49:49作者：俞予舒Fleming

Apache Pulsar - distributed pub-sub messaging system

项目地址：https://gitcode.com/gh_mirrors/pulsar24/pulsar

背景

在Apache Pulsar的数据处理生态中，KinesisSink是一个重要的组件，用于将Pulsar中的数据推送到AWS Kinesis服务。在实际使用过程中，当需要对JSON数据进行扁平化处理时，发现对SchemaType.BYTES类型的字段处理存在异常。

问题现象

当使用KinesisSink组件并启用jsonFlatten功能时，如果数据中包含SchemaType.BYTES类型的字段，该字段在JSON扁平化处理后会被错误地转换为null值，而不是预期的Base64编码字符串。例如，一个包含字节数组"10"的字段，预期输出应为Base64编码的"MTA="，但实际输出却为null。

技术分析

这个问题源于底层使用的json-flattener库在处理Jackson的BinaryNode类型时存在缺陷。在JSON扁平化过程中，当遇到字节数组类型的数据时：

Pulsar内部会先将字节数组封装为Jackson的BinaryNode
json-flattener在处理节点时，通过isString()方法判断是否应该作为字符串处理
当前实现中，isString()方法没有考虑isBinary()的情况，导致二进制数据被错误地识别为非字符串类型

解决方案

该问题的修复需要在json-flattener库中修改JsonJacksonValue类的实现，使其在判断字符串类型时，不仅检查常规的文本节点，还要包含二进制节点的情况。具体来说：

修改isString()方法，使其对BinaryNode返回true
确保二进制数据能够被正确地转换为Base64编码字符串
保持与其他类型处理的兼容性

影响范围

这个问题会影响所有使用以下配置的场景：

使用KinesisSink组件
启用了jsonFlatten选项
数据中包含SchemaType.BYTES类型的字段

最佳实践

对于需要使用字节数组字段的场景，建议：

在升级修复版本前，可以考虑在数据源处预先将字节数组转换为Base64字符串
如果必须使用原始字节数组，确保使用的Pulsar版本包含此问题的修复
在数据消费端做好null值处理，提高系统的健壮性

总结

这个问题的发现和解决展示了开源社区协作的力量。通过深入分析问题根源，不仅修复了现有缺陷，也为类似的数据类型处理提供了参考。对于Pulsar用户来说，理解这类底层处理机制有助于更好地设计数据格式和处理流程，避免潜在的数据一致性问题。

Apache Pulsar - distributed pub-sub messaging system

项目地址：https://gitcode.com/gh_mirrors/pulsar24/pulsar

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter