首页
/ 基于Apache Doris构建统一数据仓库:打破保险行业数据孤岛实践

基于Apache Doris构建统一数据仓库:打破保险行业数据孤岛实践

2025-06-27 16:15:10作者:贡沫苏Truman

引言

数据孤岛问题是企业数字化转型过程中普遍面临的挑战,尤其对于保险行业这类数据密集型业务而言更为突出。本文将分享一家大型保险公司如何利用Apache Doris构建新一代客户数据平台(CDP),成功解决原有架构中的数据孤岛问题,实现数据处理效率的显著提升。

数据孤岛问题的形成与挑战

数据孤岛的形成往往伴随着企业业务的发展壮大。该保险公司已服务超过5亿客户,签订570亿份保险合同,其数据特点表现为:

  1. 数据来源多样化:网站、移动应用、H5页面及终端设备等多渠道数据
  2. 数据处理复杂化:离线数据和实时数据需要不同的处理流程
  3. 数据存储分散化:不同数据类型存储在不同系统中

在CDP 1.0架构中,公司采用了Spark+Impala+HBase+NebulaGraph的多组件方案,导致:

  • 离线标签、实时标签和图数据分散存储
  • 数据集成需要大量冗余存储和传输
  • 系统维护成本高昂
  • 集群规模被迫扩大

Apache Doris统一架构解决方案

CDP 2.0采用Apache Doris作为统一的数据仓库解决方案,架构优势体现在:

1. 统一的数据摄入能力

  • 离线数据:采用Stream Load方式,30线程测试显示每秒可处理超过30万次upsert操作
  • 实时数据:结合Flink-Doris-Connector和Stream Load实现高效摄入
  • 联邦查询:利用Multi-Catalog功能实现跨数据源查询

2. 客户分析工作流优化

核心分析流程包括:

  1. 客户信息整理
  2. 客户标签附加
  3. 客户分组分析

关键技术实现细节

OneID统一客户识别

在多业务线场景下,同一客户可能在不同系统中使用不同标识注册。通过Apache Doris实现:

  1. 将所有业务线的用户注册信息汇总到大宽表
  2. 使用Doris内置函数识别关联信息
  3. 为每个客户分配唯一OneID

标签服务体系优化

系统管理着:

  • 5亿客户数据
  • 500+源表
  • 2000+标签

离线标签处理

采用INSERT INTO SELECT结合部分列更新技术,显著降低内存消耗:

set enable_unique_key_partial_update=true;
insert into tb_label_result(one_id, labelxx) 
select one_id, label_value as labelxx
from .....

实时标签处理

同样采用部分列更新策略:

curl --location-trusted -u root: -H "partial_columns:true" -H "column_separator:," -H "columns:id,balance,last_access_time" -T /tmp/test.csv http://127.0.0.1:48037/api/db1/user_profile/_stream_load

高并发点查询优化

针对5000+ QPS的查询压力,采用三重优化:

  1. Prepared Statement预编译
  2. 精细参数调优
  3. 行缓存补充列存储

BE参数配置示例:

disable_storage_row_cache = false                      
storage_page_cache_limit=40%

表参数配置示例:

enable_unique_key_merge_on_write = true
store_row_column = true
light_schema_change = true

标签计算优化

针对多表关联场景(通常涉及10+表),采用colocation group策略提升性能。

客户分组分析

分组流程:

  1. Doris接收服务SQL
  2. 执行计算
  3. 通过SELECT INTO OUTFILE将结果写入S3

性能对比:

  • Impala:50秒
  • Doris:10秒(提升4倍)

逆向分析能力:

  • 使用BITMAP函数快速定位客户所属分组
  • BITMAP_OR、BITMAP_INTERSECT和BITMAP_XOR实现交叉分析

总结与展望

从CDP 1.0到2.0的升级带来了显著收益:

  1. 架构简化:单一系统替代多组件
  2. 效率提升:数据处理速度提高4倍
  3. 成本降低:减少冗余存储和传输

未来CDP 3.0规划:

  • 结合实时和离线标签进行更灵活的分组分析
  • 探索更多实时分析场景

Apache Doris作为统一数据仓库解决方案,在打破数据孤岛、提升分析效率方面展现了强大能力,特别适合保险行业这类数据规模大、分析需求复杂的场景。

登录后查看全文
热门项目推荐

项目优选

收起
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
176
261
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
861
511
ShopXO开源商城ShopXO开源商城
🔥🔥🔥ShopXO企业级免费开源商城系统,可视化DIY拖拽装修、包含PC、H5、多端小程序(微信+支付宝+百度+头条&抖音+QQ+快手)、APP、多仓库、多商户、多门店、IM客服、进销存,遵循MIT开源协议发布、基于ThinkPHP8框架研发
JavaScript
93
15
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
129
182
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
259
300
kernelkernel
deepin linux kernel
C
22
5
cherry-studiocherry-studio
🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端
TypeScript
596
57
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.07 K
0
HarmonyOS-ExamplesHarmonyOS-Examples
本仓将收集和展示仓颉鸿蒙应用示例代码,欢迎大家投稿,在仓颉鸿蒙社区展现你的妙趣设计!
Cangjie
398
371
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
332
1.08 K