TiKV优化：实现SST文件写入期间不暂停服务的技术方案

2025-05-14 17:13:01作者：龚格成

TiKV是一款开源的、分布式的、事务性的键值数据库，支持ACID合规的事务性API。它由Rust编写，采用Raft共识算法，最初为兼容MySQL协议的分布式HTAP数据库TiDB设计。TiKV提供地理复制、水平扩展能力，并实现了类似Google Percolator的强一致分布式事务。其特性包括：自动分片、高性能事务处理、coprocessor框架及与TiDB的无缝协作。现在，TiKV已成为云原生计算基金会的毕业项目，被广泛应用。

项目地址：https://gitcode.com/gh_mirrors/tik/tikv

在分布式KV存储引擎TiKV中，SST(Static Sorted Table)文件的写入处理一直是一个关键性能优化点。传统方案中，RocksDB在写入SST文件时会暂停所有写入操作，这直接影响了TiKV的服务可用性和响应延迟。本文将深入分析这一技术挑战的解决方案。

背景与挑战

SST文件是RocksDB底层存储的核心数据结构，它以有序键值对的形式持久化数据。在TiKV的日常运维中，以下两种场景会触发SST文件写入：

区域快照应用(apply-snapshot)：在区域迁移或恢复时
区域销毁(destroy-region)：通过SST批量删除区域数据

传统实现中，RocksDB为了保证数据一致性，在SST文件写入期间会暂停所有写入操作。这种设计虽然保证了安全性，但导致了明显的服务停顿，特别是在处理大区域数据时，这种停顿可能达到秒级，严重影响业务连续性。

技术突破

经过深入分析TiKV的架构特性，我们发现可以突破这一限制。TiKV的独特架构提供了以下安全保障：

区域隔离性：在apply-snapshot或destroy-region操作时，目标区域不会有并发的业务写入
任务串行化：region-worker的单线程模型确保了快照应用和区域销毁操作的顺序执行

基于这些特性，我们为RocksDB引入了allow_write选项。当该选项启用时，RocksDB将不再在SST文件写入期间暂停服务。这一优化显著降低了TiKV的前台延迟，特别是在处理大规模数据迁移时效果尤为明显。

实现细节与挑战

在实际实现过程中，我们遇到了一个关键挑战：后台压缩过滤器(compaction-filter)可能与SST文件写入产生并发冲突。压缩过滤器会在后台线程执行RocksDB写入操作，这与apply-snapshot期间的SST写入可能产生竞争。

为解决这一问题，我们引入了范围锁(range latch)机制，确保压缩过滤器与快照应用期间的SST写入操作互斥执行。这一机制既保证了数据一致性，又最大限度地减少了性能影响。

替代方案分析

在方案设计过程中，我们曾考虑过另一种技术路线：通过重构RocksDB的序列号分配机制来实现不暂停写入。该方案的核心思想是：

预先分配并发布SST文件的序列号
刷新存在键重叠的memtable
暂停后续memtable刷新
执行SST文件写入
恢复memtable刷新

虽然这一方案理论上可行，但存在两个致命缺陷：

快照一致性被破坏：在SST文件写入完成前，快照可能看到不一致的数据状态
原子性无法保证：跨列族的写入可能呈现部分完成状态

考虑到这些潜在风险，我们最终选择了更为稳妥的allow_write方案，在保证系统稳定性的前提下实现性能优化。

总结

TiKV通过创新性地结合存储引擎特性和分布式架构优势，成功实现了SST文件写入期间不暂停服务的技术突破。这一优化显著提升了系统在数据迁移和大规模删除操作时的服务连续性，为分布式KV存储系统提供了宝贵的实践经验。未来，我们将继续探索更深层次的性能优化，为用户提供更稳定高效的存储服务。

tikv

项目地址：https://gitcode.com/gh_mirrors/tik/tikv

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

203

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

无需学习 Kubernetes 的容器平台，在 Kubernetes 上构建、部署、组装和管理应用，无需 K8s 专业知识，全流程图形化管理

apinto

基于golang开发的网关。具有各种插件，可以自行扩展，即插即用。此外，它可以快速帮助企业管理API服务，提高API服务的稳定性和安全性。