首页
/ 基于Apache Doris构建统一数据仓库:打破保险行业数据孤岛实践

基于Apache Doris构建统一数据仓库:打破保险行业数据孤岛实践

2025-06-27 16:15:10作者:贡沫苏Truman

引言

数据孤岛问题是企业数字化转型过程中普遍面临的挑战,尤其对于保险行业这类数据密集型业务而言更为突出。本文将分享一家大型保险公司如何利用Apache Doris构建新一代客户数据平台(CDP),成功解决原有架构中的数据孤岛问题,实现数据处理效率的显著提升。

数据孤岛问题的形成与挑战

数据孤岛的形成往往伴随着企业业务的发展壮大。该保险公司已服务超过5亿客户,签订570亿份保险合同,其数据特点表现为:

  1. 数据来源多样化:网站、移动应用、H5页面及终端设备等多渠道数据
  2. 数据处理复杂化:离线数据和实时数据需要不同的处理流程
  3. 数据存储分散化:不同数据类型存储在不同系统中

在CDP 1.0架构中,公司采用了Spark+Impala+HBase+NebulaGraph的多组件方案,导致:

  • 离线标签、实时标签和图数据分散存储
  • 数据集成需要大量冗余存储和传输
  • 系统维护成本高昂
  • 集群规模被迫扩大

Apache Doris统一架构解决方案

CDP 2.0采用Apache Doris作为统一的数据仓库解决方案,架构优势体现在:

1. 统一的数据摄入能力

  • 离线数据:采用Stream Load方式,30线程测试显示每秒可处理超过30万次upsert操作
  • 实时数据:结合Flink-Doris-Connector和Stream Load实现高效摄入
  • 联邦查询:利用Multi-Catalog功能实现跨数据源查询

2. 客户分析工作流优化

核心分析流程包括:

  1. 客户信息整理
  2. 客户标签附加
  3. 客户分组分析

关键技术实现细节

OneID统一客户识别

在多业务线场景下,同一客户可能在不同系统中使用不同标识注册。通过Apache Doris实现:

  1. 将所有业务线的用户注册信息汇总到大宽表
  2. 使用Doris内置函数识别关联信息
  3. 为每个客户分配唯一OneID

标签服务体系优化

系统管理着:

  • 5亿客户数据
  • 500+源表
  • 2000+标签

离线标签处理

采用INSERT INTO SELECT结合部分列更新技术,显著降低内存消耗:

set enable_unique_key_partial_update=true;
insert into tb_label_result(one_id, labelxx) 
select one_id, label_value as labelxx
from .....

实时标签处理

同样采用部分列更新策略:

curl --location-trusted -u root: -H "partial_columns:true" -H "column_separator:," -H "columns:id,balance,last_access_time" -T /tmp/test.csv http://127.0.0.1:48037/api/db1/user_profile/_stream_load

高并发点查询优化

针对5000+ QPS的查询压力,采用三重优化:

  1. Prepared Statement预编译
  2. 精细参数调优
  3. 行缓存补充列存储

BE参数配置示例:

disable_storage_row_cache = false                      
storage_page_cache_limit=40%

表参数配置示例:

enable_unique_key_merge_on_write = true
store_row_column = true
light_schema_change = true

标签计算优化

针对多表关联场景(通常涉及10+表),采用colocation group策略提升性能。

客户分组分析

分组流程:

  1. Doris接收服务SQL
  2. 执行计算
  3. 通过SELECT INTO OUTFILE将结果写入S3

性能对比:

  • Impala:50秒
  • Doris:10秒(提升4倍)

逆向分析能力:

  • 使用BITMAP函数快速定位客户所属分组
  • BITMAP_OR、BITMAP_INTERSECT和BITMAP_XOR实现交叉分析

总结与展望

从CDP 1.0到2.0的升级带来了显著收益:

  1. 架构简化:单一系统替代多组件
  2. 效率提升:数据处理速度提高4倍
  3. 成本降低:减少冗余存储和传输

未来CDP 3.0规划:

  • 结合实时和离线标签进行更灵活的分组分析
  • 探索更多实时分析场景

Apache Doris作为统一数据仓库解决方案,在打破数据孤岛、提升分析效率方面展现了强大能力,特别适合保险行业这类数据规模大、分析需求复杂的场景。

登录后查看全文
热门项目推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
144
1.93 K
kernelkernel
deepin linux kernel
C
22
6
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
192
274
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
145
189
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
930
553
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
423
392
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
75
66
CangjieCommunityCangjieCommunity
为仓颉编程语言开发者打造活跃、开放、高质量的社区环境
Markdown
1.11 K
0
openHiTLS-examplesopenHiTLS-examples
本仓将为广大高校开发者提供开源实践和创新开发平台,收集和展示openHiTLS示例代码及创新应用,欢迎大家投稿,让全世界看到您的精巧密码实现设计,也让更多人通过您的优秀成果,理解、喜爱上密码技术。
C
64
511