Synapse数据库并发事件计数问题分析与解决方案

2025-07-02 13:19:55作者：俞予舒Fleming

问题背景

在Matrix即时通讯系统的Synapse服务器1.129.0rc1版本中，引入了一个新功能：全局事件计数器。这个功能通过数据库触发器实现，每当有新事件插入到events表时，会自动更新event_stats表中的total_event_count字段。

然而，这个看似简单的功能在高并发场景下暴露出了严重问题。当多个工作进程同时尝试插入大量事件时（例如机器人广播消息到多个房间），数据库会频繁抛出"could not serialize access due to concurrent update"（无法序列化访问，由于并发更新）错误，导致事件持久化失败。

技术分析

问题根源

触发器并发问题：PostgreSQL的触发器在默认情况下不具备原子性更新能力。当多个事务同时触发event_stats_increment_counts函数时，它们都会尝试更新同一行数据（event_stats表中的计数器），导致序列化冲突。
无重试机制：Synapse的事件持久化流程没有为这种冲突实现自动重试逻辑，一旦发生序列化错误就会直接失败。
设计缺陷：全局计数器这种高频更新的单行数据本身就是性能瓶颈，在高负载场景下极易成为系统瓶颈。

影响范围

功能影响：广播类操作（如机器人向多个房间发送相同消息）会部分失败
系统影响：增加了数据库负载，可能影响整体系统性能
数据一致性：可能导致事件计数不准确

解决方案

临时解决方案

对于已经升级到1.129.0rc1版本的服务器，需要手动删除遗留的数据库触发器：

PostgreSQL环境：

DROP TRIGGER event_stats_increment_counts_trigger;
DROP FUNCTION event_stats_increment_counts;

SQLite环境：

DROP TRIGGER event_stats_events_insert_trigger;
DROP TRIGGER event_stats_events_delete_trigger;

长期解决方案

Synapse开发团队已经采取了以下措施：

回滚功能：在后续版本中移除了这个不稳定的计数器功能
自动清理：添加了数据库迁移脚本，自动清理遗留的触发器
设计改进：重新考虑全局计数器的实现方式，避免单行热点问题

技术启示

数据库触发器使用需谨慎：特别是在高并发环境下，触发器可能成为性能瓶颈
单行计数器问题：全局计数器应考虑使用更分布式的方法实现，如分片计数
事务隔离级别：理解不同数据库的事务隔离级别对并发控制的影响至关重要
错误处理机制：关键路径上的数据库操作应实现适当的重试逻辑

总结

这个案例展示了在高并发系统中实现全局计数器的挑战。Synapse团队通过快速响应和回滚有问题的功能，确保了系统的稳定性。未来类似功能的实现可能需要考虑更分布式的计数方案，或者接受一定程度的不精确性以换取更高的可用性。

对于系统管理员来说，这个案例也提醒我们在升级前充分测试新版本，特别是涉及数据库结构变更的功能，并在生产环境部署前准备好回滚方案。

synapse

Synapse: Matrix homeserver written in Python/Twisted.

项目地址：https://gitcode.com/gh_mirrors/syna/synapse

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

356

216

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息