Highlight项目优化：将事件处理迁移至Kafka工作队列

2025-05-28 02:42:38作者：何将鹤

在Highlight项目的开发过程中，团队发现推送负载存在延迟问题。经过深入分析，发现这是由于ClickHouse数据库的背压（back pressure）以及直接在处理过程中调用"wait_for_async_insert": 1参数所导致的。本文将详细介绍这一问题的技术背景、解决方案以及实施细节。

问题背景分析

当前架构中，事件处理流程存在以下关键问题：

同步等待瓶颈：在处理推送负载时，系统直接调用ClickHouse的异步插入操作并设置wait_for_async_insert为1，这意味着处理器必须等待插入操作完成才能继续处理下一个请求。
背压效应：当ClickHouse处理能力达到上限时，会导致上游系统（事件处理器）的积压，形成背压效应，进而影响整个系统的响应速度。
可靠性权衡：虽然将wait_for_async_insert设置为0可以缓解延迟问题，但这会导致系统无法及时获知插入错误，可能造成事件丢失，这不是一个理想的解决方案。

技术解决方案

团队决定采用Kafka工作队列作为中间层来解决这一问题，具体架构调整如下：

异步处理架构：将事件处理流程拆分为两个独立阶段：
- 第一阶段：快速接收推送负载并写入Kafka队列
- 第二阶段：由Kafka消费者批量处理事件并写入ClickHouse
批量写入优化：Kafka消费者可以积累一定数量的事件或等待特定时间窗口后，批量写入ClickHouse，显著减少数据库写入压力。
背压隔离：Kafka作为缓冲层，可以吸收ClickHouse处理速度波动带来的影响，防止背压传导至前端系统。

实现细节

生产者端优化

在事件接收端，系统只需完成以下工作：

验证事件数据有效性
序列化事件数据
快速写入Kafka主题

这种设计使得事件接收服务可以保持极高的吞吐量和低延迟。

消费者端设计

Kafka消费者服务采用以下策略：

批量消费：配置适当的max.poll.records参数控制每次拉取的消息数量
批量插入：积累足够数量的事件后执行ClickHouse批量插入
错误处理：实现完善的重试机制和死信队列处理

监控与告警

新架构下需要特别注意：

Kafka队列积压监控
消费者延迟监控
ClickHouse写入错误率监控

预期收益

这一架构调整将带来以下改进：

降低端到端延迟：推送负载处理不再受数据库写入速度影响
提高系统吞吐量：批量写入显著减少数据库负载
增强系统可靠性：完善的错误处理机制确保数据不丢失
更好的可扩展性：可以独立扩展消费者服务应对写入压力

总结

通过引入Kafka作为事件处理中间件，Highlight项目有效解决了数据库写入导致的系统延迟问题。这种架构不仅解决了当前性能瓶颈，还为系统未来的扩展奠定了良好基础。这种生产者-消费者模式与批量处理相结合的设计，对于类似的高吞吐量数据处理场景具有很好的参考价值。

highlight

highlight.io: The open source, full-stack monitoring platform. Error monitoring, session replay, logging and more.

项目地址：https://gitcode.com/gh_mirrors/hi/highlight

登录后查看全文