CAP项目中的SQL查询优化：OR与UNION的性能权衡

2025-06-01 13:36:11作者：秋阔奎Evelyn

背景介绍

在分布式系统架构中，CAP（DotNetCore.CAP）作为一个.NET Core下的分布式事务解决方案和事件总线，其数据存储层的性能优化至关重要。近期CAP社区针对PostgreSQL和MSSQL数据存储实现中的SQL查询进行了深入讨论，特别是关于OR操作符与UNION的性能比较。

问题发现

在CAP的IDataStorage实现中，原本使用了包含OR条件的SQL查询来获取待处理消息。这种写法虽然逻辑清晰，但在处理大规模数据时可能存在性能瓶颈。典型的原始查询如下：

SELECT "Id", "Content", "Retries", "Added", "ExpiresAt" 
FROM Published 
WHERE "Version" = @Version 
AND (
    ("ExpiresAt" < @TwoMinutesLater AND "StatusName" = 'Delayed') 
    OR 
    ("ExpiresAt" < @OneMinutesAgo AND "StatusName" = 'Queued')
) 
FOR UPDATE SKIP LOCKED;

优化建议

数据库专家建议将OR操作符替换为UNION ALL，这种改写可以带来以下优势：

更好的索引利用率：每个独立查询可以更有效地使用复合索引
减少全表扫描风险：避免OR条件导致的索引失效
查询计划更可控：数据库优化器能为每个独立查询生成更优的执行计划

优化后的MSSQL版本查询示例：

SELECT Id, Content, Retries, Added, ExpiresAt 
FROM Published WITH (UPDLOCK, READPAST) 
WHERE Version = @Version 
AND ExpiresAt < @TwoMinutesLater 
AND StatusName = 'Delayed'
UNION ALL
SELECT Id, Content, Retries, Added, ExpiresAt 
FROM Published WITH (UPDLOCK, READPAST) 
WHERE Version = @Version 
AND ExpiresAt < @OneMinutesAgo 
AND StatusName = 'Queued';

技术挑战与解决方案

在实际实现过程中，开发团队遇到了几个关键技术挑战：

PostgreSQL的锁机制限制：在PostgreSQL中，FOR UPDATE SKIP LOCKED不能与UNION ALL一起使用。经过测试，团队发现子查询方案在PostgreSQL中会报错，而在MySQL中则无法有效利用索引。
索引设计考量：团队重新评估了表索引策略，考虑为StatusName、ExpiresAt和Version等高频查询字段创建复合索引。但在实际部署中发现，包含大字段（如Content）的索引会导致PostgreSQL索引行大小超出限制。
兼容性平衡：最终方案在不同数据库间采取了差异化策略：
- MSSQL：使用UNION ALL优化
- PostgreSQL和MySQL：保留原OR条件写法，但优化索引设计