基于Apache Doris构建统一数据仓库：打破保险行业数据孤岛实践

2025-06-27 16:15:10作者：贡沫苏Truman

引言

数据孤岛问题是企业数字化转型过程中普遍面临的挑战，尤其对于保险行业这类数据密集型业务而言更为突出。本文将分享一家大型保险公司如何利用Apache Doris构建新一代客户数据平台(CDP)，成功解决原有架构中的数据孤岛问题，实现数据处理效率的显著提升。

数据孤岛问题的形成与挑战

数据孤岛的形成往往伴随着企业业务的发展壮大。该保险公司已服务超过5亿客户，签订570亿份保险合同，其数据特点表现为：

数据来源多样化：网站、移动应用、H5页面及终端设备等多渠道数据
数据处理复杂化：离线数据和实时数据需要不同的处理流程
数据存储分散化：不同数据类型存储在不同系统中

在CDP 1.0架构中，公司采用了Spark+Impala+HBase+NebulaGraph的多组件方案，导致：

离线标签、实时标签和图数据分散存储
数据集成需要大量冗余存储和传输
系统维护成本高昂
集群规模被迫扩大

Apache Doris统一架构解决方案

CDP 2.0采用Apache Doris作为统一的数据仓库解决方案，架构优势体现在：

1. 统一的数据摄入能力

离线数据：采用Stream Load方式，30线程测试显示每秒可处理超过30万次upsert操作
实时数据：结合Flink-Doris-Connector和Stream Load实现高效摄入
联邦查询：利用Multi-Catalog功能实现跨数据源查询

2. 客户分析工作流优化

核心分析流程包括：

客户信息整理
客户标签附加
客户分组分析

关键技术实现细节

OneID统一客户识别

在多业务线场景下，同一客户可能在不同系统中使用不同标识注册。通过Apache Doris实现：

将所有业务线的用户注册信息汇总到大宽表
使用Doris内置函数识别关联信息
为每个客户分配唯一OneID

标签服务体系优化

系统管理着：

5亿客户数据
500+源表
2000+标签

离线标签处理

采用INSERT INTO SELECT结合部分列更新技术，显著降低内存消耗：

set enable_unique_key_partial_update=true;
insert into tb_label_result(one_id, labelxx) 
select one_id, label_value as labelxx
from .....

实时标签处理

同样采用部分列更新策略：

curl --location-trusted -u root: -H "partial_columns:true" -H "column_separator:," -H "columns:id,balance,last_access_time" -T /tmp/test.csv http://127.0.0.1:48037/api/db1/user_profile/_stream_load

高并发点查询优化

针对5000+ QPS的查询压力，采用三重优化：

Prepared Statement预编译
精细参数调优
行缓存补充列存储

BE参数配置示例：

disable_storage_row_cache = false                      
storage_page_cache_limit=40%

表参数配置示例：

enable_unique_key_merge_on_write = true
store_row_column = true
light_schema_change = true

标签计算优化

针对多表关联场景(通常涉及10+表)，采用colocation group策略提升性能。

客户分组分析

分组流程：

Doris接收服务SQL
执行计算
通过SELECT INTO OUTFILE将结果写入S3

性能对比：

Impala：50秒
Doris：10秒（提升4倍）

逆向分析能力：

使用BITMAP函数快速定位客户所属分组
BITMAP_OR、BITMAP_INTERSECT和BITMAP_XOR实现交叉分析

总结与展望

从CDP 1.0到2.0的升级带来了显著收益：

架构简化：单一系统替代多组件
效率提升：数据处理速度提高4倍
成本降低：减少冗余存储和传输

未来CDP 3.0规划：

结合实时和离线标签进行更灵活的分组分析
探索更多实时分析场景

Apache Doris作为统一数据仓库解决方案，在打破数据孤岛、提升分析效率方面展现了强大能力，特别适合保险行业这类数据规模大、分析需求复杂的场景。

登录后查看全文

基于Apache Doris构建统一数据仓库：打破保险行业数据孤岛实践

引言

数据孤岛问题的形成与挑战

Apache Doris统一架构解决方案

1. 统一的数据摄入能力

2. 客户分析工作流优化

关键技术实现细节

OneID统一客户识别

标签服务体系优化

离线标签处理

实时标签处理

高并发点查询优化

标签计算优化

客户分组分析

总结与展望

热门内容推荐

最新内容推荐

项目优选

基于Apache Doris构建统一数据仓库：打破保险行业数据孤岛实践

引言

数据孤岛问题的形成与挑战

Apache Doris统一架构解决方案

1. 统一的数据摄入能力

2. 客户分析工作流优化

关键技术实现细节

OneID统一客户识别

标签服务体系优化

离线标签处理

实时标签处理

高并发点查询优化

标签计算优化

客户分组分析

总结与展望

相关内容推荐

热门内容推荐

最新内容推荐

项目优选