ClickPy项目中的ClickHouse数据库设计与优化实践

2025-06-30 23:55:58作者：尤峻淳Whitney

项目概述

ClickPy是一个基于ClickHouse的分析项目，专门用于处理Python包索引(PyPI)的下载数据。该项目通过精心设计的数据库结构和物化视图，为PyPI下载数据提供了高效的分析能力。本文将深入解析ClickPy项目的数据库设计思路和技术实现。

数据库基础设计

默认数据库配置

ClickPy默认使用名为pypi的数据库，创建语句如下：

CREATE DATABASE pypi

核心数据表结构

PyPI下载数据表的设计考虑了数据特性和查询需求，仅保留了必要的字段：

CREATE OR REPLACE TABLE pypi.pypi
(
    `date` Date,
    `country_code` LowCardinality(String),
    `project` String,
    `type` LowCardinality(String),
    `installer` LowCardinality(String),
    `python_minor` LowCardinality(String),
    `system` LowCardinality(String),
    `version` String
)
ENGINE = MergeTree
ORDER BY (project, date, version, country_code, python_minor, system)

设计特点：

使用LowCardinality类型优化低基数字符串存储
主键排序设计考虑了常见查询模式
去除了源数据中不必要的字段，减少存储和计算开销

物化视图体系

ClickPy构建了一套完整的物化视图系统，实现数据的预聚合和实时分析。

基础聚合视图

总下载量视图：按项目聚合总下载次数
版本下载量视图：按项目和版本聚合下载次数
每日下载量视图：按项目和日期聚合下载次数

CREATE TABLE pypi.pypi_downloads
(
    `project` String,
    `count` Int64
)
ENGINE = SummingMergeTree
ORDER BY project

多维分析视图

项目设计了多个维度的分析视图，满足不同分析需求：

地域维度：按国家/地区分析下载情况
技术维度：按Python版本、系统类型分析
时间维度：按日、月分析下载趋势
安装维度：按安装工具类型分析

CREATE TABLE pypi.pypi_downloads_per_day_by_version_by_country
(
    `date` Date,
    `project` String,
    `version` String,
    `country_code` String,
    `count` Int64
)
ENGINE = SummingMergeTree
ORDER BY (project, version, date, country_code)

特殊分析视图

首末次下载时间：记录每个项目的首次和最后一次下载时间
近6月月度下载：专注于最近半年的下载趋势分析

CREATE TABLE pypi.pypi_downloads_max_min
(
    `project` String,
    `max_date` SimpleAggregateFunction(max, Date),
    `min_date` SimpleAggregateFunction(min, Date)
)
ENGINE = AggregatingMergeTree
ORDER BY project

项目元数据表

除了下载数据，ClickPy还维护了一个项目元数据表，包含PyPI项目的详细信息：

CREATE TABLE pypi.projects
(
    `metadata_version` String,
    `name` String,
    `version` String,
    `summary` String,
    `description` String,
    -- 省略其他字段...
    `upload_time` DateTime64,
    `filename` String,
    `size` Int64
    -- 省略其他字段...
)
ENGINE = MergeTree
ORDER BY name

该表可通过公开的Parquet文件直接导入数据。

字典优化

ClickPy使用字典技术优化了频繁访问的数据：

国家代码字典：将国家代码映射为国家名称
项目最后更新时间字典：缓存项目的最后更新时间

CREATE DICTIONARY countries_dict
(
    `name` String,
    `code` String
)
PRIMARY KEY code
SOURCE(CLICKHOUSE(TABLE 'countries'))
LIFETIME(MIN 0 MAX 300)
LAYOUT(COMPLEX_KEY_HASHED())