Shlink项目优化大数据集分析性能的技术方案

2025-06-18 03:07:57作者：苗圣禹Peter

The definitive self-hosted URL shortener

项目地址：https://gitcode.com/gh_mirrors/sh/shlink

背景与挑战

Shlink作为一个开源的URL短链接服务，在处理大规模访问数据时遇到了性能瓶颈。当系统积累了数千万访问记录后，管理员界面加载访问统计信息变得极其缓慢，甚至无法完成加载。核心问题在于每次页面加载都会直接执行全表COUNT查询，这在海量数据场景下效率极低。

问题分析

传统实现中，Shlink采用直接查询数据库的方式统计访问量：

全局访问统计：SELECT COUNT(v0_.id) FROM visits v0_ WHERE v0_.short_url_id IS NOT NULL AND v0_.potential_bot = 0
单个短链接访问统计：类似的全表COUNT查询

这种实现在小数据量时表现良好，但当数据量达到千万级别时，查询耗时可能超过2分钟，严重影响用户体验。

优化方案

开发团队设计了全新的统计计数架构：

1. 预计算存储模式

引入专门的计数存储表，预先计算并保存各类统计结果
包括全局访问量、单个短链接访问量、标签关联访问量等核心指标

2. 实时增量更新

每次有新访问时，同步更新预计算的计数
确保统计数据的实时性和准确性

3. 定期全量校验

设置定时任务执行全量COUNT校验
修正可能存在的计数偏差
保证长期运行的准确性

性能提升

在实际测试环境中：

数据规模：100万访问记录、1万个短链接、2万个标签
查询性能提升约20倍
管理员界面响应时间从分钟级降至秒级

实现细节

优化涉及两个主要方面：

短链接访问统计优化
- 重构了短链接访问量的计算逻辑
- 从实时COUNT改为使用预计算值
- 显著提升短链接列表页面的加载速度
标签统计优化
- 特别优化了按标签统计访问量的功能
- 解决了标签过滤时的性能瓶颈
- 使标签导航更加流畅

总结

Shlink通过引入预计算统计架构，有效解决了大规模数据集下的性能问题。这一优化不仅提升了管理员界面的响应速度，也为系统未来的扩展性奠定了基础。该优化已随Shlink 4.1.0版本正式发布，为处理海量访问数据的用户带来了显著的性能提升。

The definitive self-hosted URL shortener

项目地址：https://gitcode.com/gh_mirrors/sh/shlink

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。