数据混沌难题？用ECharts+DBSCAN技术实现智能分组，3步提升分析效率

2026-03-16 04:52:14作者：裘晴惠Vivianne

在数据驱动决策的时代，面对海量、高维的复杂数据，传统的人工分析方法往往力不从心。如何快速从散乱的数据点中发现隐藏的模式和结构，成为提升数据分析效率的关键挑战。本文将通过"问题发现→核心原理→分层实现→场景拓展"的四阶段框架，详细介绍如何利用ECharts结合DBSCAN密度聚类算法，实现数据的智能分组与可视化，帮助开发人员和业务分析师更高效地洞察数据规律。

一、问题发现：数据聚类的现实挑战

🔥 实践价值：在金融、电商、物联网等领域，快速准确地对数据进行聚类分析，能够为风险识别、用户画像、设备状态监测等业务场景提供有力支持，显著提升决策效率和准确性。

痛点解析

在实际的数据分析工作中，我们常常面临以下问题：

数据量庞大，人工分析耗时费力，难以快速发现数据中的内在联系。
数据维度高，传统的可视化方法难以直观展示数据的分布特征。
不同行业、不同场景下的数据分布特点各异，通用的分析方法难以满足个性化需求。

实战代码

以下是一个简单的示例，展示了未进行聚类分析的原始数据可视化效果：

// 基础版：未聚类的原始数据可视化
const chart = echarts.init(document.getElementById('main'));

const option = {
  xAxis: {
    type: 'value',
    name: '特征一'
  },
  yAxis: {
    type: 'value',
    name: '特征二'
  },
  series: [{
    type: 'scatter',
    data: [
      [1.2, 3.4], [2.1, 4.5], [3.3, 2.1], [4.5, 1.8], [5.2, 3.7],
      [6.1, 5.2], [7.3, 6.8], [8.2, 4.9], [9.1, 7.3], [10.5, 5.8]
      // 更多数据...
    ],
    symbolSize: 10
  }]
};

chart.setOption(option);

效果对比

未聚类的原始数据散点图中，数据点杂乱无章地分布，难以直观地看出数据的群体特征和分布规律。而通过聚类分析后，不同类别的数据点会被赋予不同的颜色或形状，数据的分布模式一目了然。

💡 专家提示：在进行数据聚类分析之前，需要对数据进行预处理，包括数据清洗、去噪、归一化等操作，以提高聚类结果的准确性。

二、核心原理：DBSCAN聚类算法与ECharts可视化

🔥 实践价值：深入理解DBSCAN算法的核心原理和ECharts的可视化机制，能够帮助开发人员更好地应用这些技术解决实际问题，实现数据的高效分析和展示。

痛点解析

对于非专业的开发人员和业务分析师来说，理解复杂的聚类算法原理和可视化实现细节存在一定困难，这限制了他们对数据聚类技术的应用。

实战代码

以下是DBSCAN算法的核心原理示意代码：

// DBSCAN算法核心原理示意（简化版）
function dbscan(points, eps, minSamples) {
  let clusterId = 0;
  const visited = new Array(points.length).fill(false);
  const clusters = [];

  for (let i = 0; i < points.length; i++) {
    if (!visited[i]) {
      visited[i] = true;
      const neighbors = findNeighbors(points, i, eps);
      if (neighbors.length >= minSamples) {
        const cluster = [i];
        for (let j = 0; j < neighbors.length; j++) {
          const neighborIdx = neighbors[j];
          if (!visited[neighborIdx]) {
            visited[neighborIdx] = true;
            const newNeighbors = findNeighbors(points, neighborIdx, eps);
            if (newNeighbors.length >= minSamples) {
              neighbors.push(...newNeighbors);
            }
            cluster.push(neighborIdx);
          }
        }
        clusters.push({ id: clusterId++, points: cluster.map(idx => points[idx]) });
      } else {
        // 标记为噪声点
        clusters.push({ id: -1, points: [points[i]] });
      }
    }
  }

  return clusters;
}

function findNeighbors(points, idx, eps) {
  const neighbors = [];
  const point = points[idx];
  for (let i = 0; i < points.length; i++) {
    if (i !== idx && distance(point, points[i]) <= eps) {
      neighbors.push(i);
    }
  }
  return neighbors;
}

function distance(p1, p2) {
  // 欧氏距离计算
  return Math.sqrt(Math.pow(p1[0] - p2[0], 2) + Math.pow(p1[1] - p2[1], 2));
}

效果对比

通过上述DBSCAN算法原理示意代码，可以清晰地看到算法如何通过密度来划分数据点，将密度相连的点划分为同一个簇，而将低密度区域的点标记为噪声。结合ECharts的可视化能力，可以将聚类结果以直观的方式展示出来。

📌 核心概念：DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，它将具有足够密度的区域划分为簇，并能发现任意形状的簇。可以通俗地类比为：在一个平面上，把距离较近的点看作是一个群体，而距离较远的点则被视为孤立的个体。

以下是使用mermaid语法绘制的DBSCAN算法交互流程图：

graph TD
    A[输入数据集] --> B[初始化参数：eps（邻域半径）、minSamples（最小样本数）]
    B --> C[遍历每个未访问数据点]
    C --> D{该点是否被访问？}
    D -- 否 --> E[标记为已访问]
    E --> F[查找该点的邻域内所有点]
    F --> G{邻域内点的数量是否 >= minSamples？}
    G -- 是 --> H[创建新簇，将该点加入簇]
    H --> I[遍历邻域内的其他点]
    I --> J{该点是否被访问？}
    J -- 否 --> K[标记为已访问]
    K --> L[查找该点的邻域内所有点]
    L --> M{邻域内点的数量是否 >= minSamples？}
    M -- 是 --> N[将新邻域内的点加入当前邻域列表]
    N --> I
    M -- 否 --> I
    J -- 是 --> I
    G -- 否 --> O[标记为噪声点]
    D -- 是 --> C
    I --> P[将簇添加到聚类结果中]
    O --> C
    P --> Q[输出聚类结果]

💡 专家提示：在实际应用中，eps和minSamples参数的选择对DBSCAN算法的聚类结果影响很大，需要根据具体的数据特点进行调整。

三、分层实现：从基础到优化的聚类可视化

🔥 实践价值：通过分层实现的方式，从基础版到进阶版再到优化版，逐步掌握ECharts结合DBSCAN算法实现数据聚类可视化的完整流程，满足不同场景的需求。

痛点解析

直接上手复杂的聚类可视化实现往往会让开发人员感到无从下手，缺乏一个循序渐进的学习路径。

实战代码

基础版：基本聚类可视化

// 基础版：基本聚类可视化
const chart = echarts.init(document.getElementById('main'));
echarts.registerTransform(ecStat.transform.clustering);

const option = {
  dataset: [{
    id: 'raw',
    source: [
      [1.2, 3.4], [2.1, 4.5], [3.3, 2.1], [4.5, 1.8], [5.2, 3.7],
      [6.1, 5.2], [7.3, 6.8], [8.2, 4.9], [9.1, 7.3], [10.5, 5.8]
      // 更多数据...
    ]
  }, {
    id: 'clustered',
    fromDatasetId: 'raw',
    transform: {
      type: 'ecStat:clustering',
      config: {
        method: 'dbscan',
        eps: 1.5,
        minSamples: 3,
        dimensions: [0, 1],
        outputClusterIndexDimension: { name: 'CLUSTER_IDX' }
      }
    }
  }],
  xAxis: { type: 'value', name: '特征一' },
  yAxis: { type: 'value', name: '特征二' },
  series: {
    type: 'scatter',
    datasetId: 'clustered',
    encode: { x: 0, y: 1 },
    itemStyle: {
      color: function(params) {
        const clusterIdx = params.data[2];
        const colors = ['#cc5664', '#9bd6ec', '#ea946e', '#8acaaa', '#7b68ee'];
        return clusterIdx >= 0 ? colors[clusterIdx % colors.length] : '#999999';
      }
    },
    symbolSize: 10
  }
};

chart.setOption(option);

进阶版：添加聚类中心和标签

// 进阶版：添加聚类中心和标签
const chart = echarts.init(document.getElementById('main'));
echarts.registerTransform(ecStat.transform.clustering);
echarts.registerTransform(ecStat.transform.aggregate);

const option = {
  dataset: [{
    id: 'raw',
    source: [
      [1.2, 3.4, 'A'], [2.1, 4.5, 'B'], [3.3, 2.1, 'C'], [4.5, 1.8, 'D'], [5.2, 3.7, 'E'],
      [6.1, 5.2, 'F'], [7.3, 6.8, 'G'], [8.2, 4.9, 'H'], [9.1, 7.3, 'I'], [10.5, 5.8, 'J']
      // 更多数据...
    ]
  }, {
    id: 'clustered',
    fromDatasetId: 'raw',
    transform: {
      type: 'ecStat:clustering',
      config: {
        method: 'dbscan',
        eps: 1.5,
        minSamples: 3,
        dimensions: [0, 1],
        outputClusterIndexDimension: { name: 'CLUSTER_IDX' },
        outputCentroidDimensions: [
          { name: 'CLUSTER_CENTER_0' },
          { name: 'CLUSTER_CENTER_1' }
        ]
      }
    }
  }, {
    id: 'clusterCenters',
    fromDatasetId: 'clustered',
    transform: {
      type: 'ecStat:aggregate',
      config: {
        groupBy: 'CLUSTER_IDX',
        resultDimensions: [
          { name: 'CLUSTER_IDX' },
          { name: 'CLUSTER_CENTER_0', method: 'average' },
          { name: 'CLUSTER_CENTER_1', method: 'average' },
          { name: 'COUNT', method: 'count' }
        ]
      }
    }
  }],
  xAxis: { type: 'value', name: '特征一' },
  yAxis: { type: 'value', name: '特征二' },
  series: [
    {
      type: 'scatter',
      datasetId: 'clustered',
      encode: { x: 0, y: 1, itemName: 2 },
      itemStyle: {
        color: function(params) {
          const clusterIdx = params.data[3];
          const colors = ['#cc5664', '#9bd6ec', '#ea946e', '#8acaaa', '#7b68ee'];
          return clusterIdx >= 0 ? colors[clusterIdx % colors.length] : '#999999';
        }
      },
      symbolSize: 10,
      label: {
        show: true,
        formatter: function(params) {
          return params.data[2];
        },
        fontSize: 10
      }
    },
    {
      type: 'scatter',
      datasetId: 'clusterCenters',
      encode: { x: 'CLUSTER_CENTER_0', y: 'CLUSTER_CENTER_1' },
      symbol: 'pin',
      symbolSize: 20,
      itemStyle: { color: '#000000' },
      label: {
        show: true,
        formatter: function(params) {
          return `中心(${params.data.CLUSTER_IDX})`;
        },
        fontSize: 12,
        fontWeight: 'bold'
      }
    }
  ]
};

chart.setOption(option);

优化版：添加交互和动态调整

// 优化版：添加交互和动态调整
const chart = echarts.init(document.getElementById('main'));
echarts.registerTransform(ecStat.transform.clustering);
echarts.registerTransform(ecStat.transform.aggregate);

let eps = 1.5;
let minSamples = 3;

function updateChart() {
  const option = {
    dataset: [{
      id: 'raw',
      source: [
        [1.2, 3.4, 'A'], [2.1, 4.5, 'B'], [3.3, 2.1, 'C'], [4.5, 1.8, 'D'], [5.2, 3.7, 'E'],
        [6.1, 5.2, 'F'], [7.3, 6.8, 'G'], [8.2, 4.9, 'H'], [9.1, 7.3, 'I'], [10.5, 5.8, 'J']
        // 更多数据...
      ]
    }, {
      id: 'clustered',
      fromDatasetId: 'raw',
      transform: {
        type: 'ecStat:clustering',
        config: {
          method: 'dbscan',
          eps: eps,
          minSamples: minSamples,
          dimensions: [0, 1],
          outputClusterIndexDimension: { name: 'CLUSTER_IDX' },
          outputCentroidDimensions: [
            { name: 'CLUSTER_CENTER_0' },
            { name: 'CLUSTER_CENTER_1' }
          ]
        }
      }
    }, {
      id: 'clusterCenters',
      fromDatasetId: 'clustered',
      transform: {
        type: 'ecStat:aggregate',
        config: {
          groupBy: 'CLUSTER_IDX',
          resultDimensions: [
            { name: 'CLUSTER_IDX' },
            { name: 'CLUSTER_CENTER_0', method: 'average' },
            { name: 'CLUSTER_CENTER_1', method: 'average' },
            { name: 'COUNT', method: 'count' }
          ]
        }
      }
    }],
    xAxis: { type: 'value', name: '特征一' },
    yAxis: { type: 'value', name: '特征二' },
    tooltip: {
      trigger: 'item',
      formatter: function(params) {
        return `数据点: ${params.data[2]}<br>聚类ID: ${params.data[3]}<br>坐标: (${params.data[0].toFixed(2)}, ${params.data[1].toFixed(2)})`;
      }
    },
    series: [
      {
        type: 'scatter',
        datasetId: 'clustered',
        encode: { x: 0, y: 1, itemName: 2 },
        itemStyle: {
          color: function(params) {
            const clusterIdx = params.data[3];
            const colors = ['#cc5664', '#9bd6ec', '#ea946e', '#8acaaa', '#7b68ee'];
            return clusterIdx >= 0 ? colors[clusterIdx % colors.length] : '#999999';
          }
        },
        symbolSize: 10,
        label: {
          show: false,
          formatter: function(params) {
            return params.data[2];
          },
          fontSize: 10
        },
        emphasis: {
          label: {
            show: true
          }
        }
      },
      {
        type: 'scatter',
        datasetId: 'clusterCenters',
        encode: { x: 'CLUSTER_CENTER_0', y: 'CLUSTER_CENTER_1' },
        symbol: 'pin',
        symbolSize: 20,
        itemStyle: { color: '#000000' },
        label: {
          show: true,
          formatter: function(params) {
            return `中心(${params.data.CLUSTER_IDX})`;
          },
          fontSize: 12,
          fontWeight: 'bold'
        }
      }
    ]
  };

  chart.setOption(option);
}

// 添加参数调整控件
document.getElementById('epsSlider').addEventListener('input', function(e) {
  eps = parseFloat(e.target.value);
  updateChart();
});

document.getElementById('minSamplesSlider').addEventListener('input', function(e) {
  minSamples = parseInt(e.target.value);
  updateChart();
});

updateChart();

效果对比

基础版实现了基本的聚类可视化，能够区分不同的簇和噪声点；进阶版添加了聚类中心和数据点标签，使聚类结果更加清晰直观；优化版则增加了交互功能，允许用户动态调整DBSCAN算法的参数，实时查看聚类结果的变化。

核心实现：src/chart/scatter.ts

💡 专家提示：在实际项目中，为了提高聚类可视化的性能，可以对大数据集进行采样处理，或者使用Web Worker在后台进行聚类计算，避免阻塞主线程。

四、场景拓展：行业化案例应用

🔥 实践价值：通过金融风控、电商推荐、物联网监测三个行业化案例，展示ECharts+DBSCAN技术在不同领域的具体应用，为开发人员和业务分析师提供实际参考。

痛点解析

不同行业的数据特点和业务需求差异较大，通用的聚类分析方法难以直接应用，需要结合具体场景进行定制化开发。

实战代码

案例一：金融风控——异常交易检测

// 金融风控——异常交易检测
const chart = echarts.init(document.getElementById('main'));
echarts.registerTransform(ecStat.transform.clustering);

// 模拟交易数据：[交易金额, 交易频率, 交易时间（小时）, 交易地点编码]
const tradeData = [
  [1000, 5, 10, 101], [2000, 3, 14, 102], [1500, 4, 16, 101], [5000, 1, 21, 103], [800, 6, 9, 102],
  [30000, 10, 23, 105], [50000, 8, 22, 105], [45000, 9, 23, 105], [25000, 7, 21, 105], [35000, 11, 23, 105]
  // 更多数据...
];

const option = {
  dataset: [{
    id: 'raw',
    source: tradeData
  }, {
    id: 'clustered',
    fromDatasetId: 'raw',
    transform: {
      type: 'ecStat:clustering',
      config: {
        method: 'dbscan',
        eps: 5000,
        minSamples: 3,
        dimensions: [0, 1],
        outputClusterIndexDimension: { name: 'CLUSTER_IDX' }
      }
    }
  }],
  xAxis: { type: 'value', name: '交易金额' },
  yAxis: { type: 'value', name: '交易频率' },
  series: {
    type: 'scatter',
    datasetId: 'clustered',
    encode: { x: 0, y: 1 },
    itemStyle: {
      color: function(params) {
        const clusterIdx = params.data[4];
        // 将噪声点标记为异常交易
        return clusterIdx === -1 ? '#ff0000' : ['#9bd6ec', '#ea946e', '#8acaaa'][clusterIdx % 3];
      }
    },
    symbolSize: function(params) {
      // 根据交易时间调整点大小，夜间交易点更大
      const hour = params.data[2];
      return hour >= 20 || hour <= 6 ? 15 : 10;
    },
    tooltip: {
      formatter: function(params) {
        const data = params.data;
        return `交易金额: ${data[0]}<br>交易频率: ${data[1]}<br>交易时间: ${data[2]}点<br>交易地点: ${data[3]}<br>${data[4] === -1 ? '状态: 异常交易' : '状态: 正常交易'}`;
      }
    }
  }
};

chart.setOption(option);

案例二：电商推荐——用户分群

// 电商推荐——用户分群
const chart = echarts.init(document.getElementById('main'));
echarts.registerTransform(ecStat.transform.clustering);

// 模拟用户数据：[浏览时长（分钟）, 购买金额, 访问频率, 用户ID]
const userData = [
  [10, 200, 5, 'U001'], [30, 800, 10, 'U002'], [5, 50, 2, 'U003'], [25, 600, 8, 'U004'], [15, 300, 6, 'U005'],
  [40, 1200, 15, 'U006'], [50, 1500, 20, 'U007'], [35, 900, 12, 'U008'], [20, 400, 7, 'U009'], [5, 30, 1, 'U010']
  // 更多数据...
];

const option = {
  dataset: [{
    id: 'raw',
    source: userData
  }, {
    id: 'clustered',
    fromDatasetId: 'raw',
    transform: {
      type: 'ecStat:clustering',
      config: {
        method: 'dbscan',
        eps: 200,
        minSamples: 2,
        dimensions: [1, 2],
        outputClusterIndexDimension: { name: 'CLUSTER_IDX' }
      }
    }
  }],
  xAxis: { type: 'value', name: '购买金额' },
  yAxis: { type: 'value', name: '访问频率' },
  series: {
    type: 'scatter',
    datasetId: 'clustered',
    encode: { x: 1, y: 2, itemName: 3 },
    itemStyle: {
      color: function(params) {
        const clusterIdx = params.data[4];
        const clusterNames = ['低价值用户', '中价值用户', '高价值用户'];
        const colors = ['#999999', '#ea946e', '#cc5664'];
        return clusterIdx >= 0 ? colors[clusterIdx % colors.length] : '#999999';
      }
    },
    symbolSize: function(params) {
      // 根据浏览时长调整点大小
      return params.data[0] / 2;
    },
    label: {
      show: true,
      formatter: function(params) {
        const clusterIdx = params.data[4];
        const clusterNames = ['低价值用户', '中价值用户', '高价值用户'];
        return clusterIdx >= 0 ? clusterNames[clusterIdx % clusterNames.length] : '未知用户';
      },
      fontSize: 10
    }
  }
};

chart.setOption(option);

案例三：物联网监测——设备状态监测

// 物联网监测——设备状态监测
const chart = echarts.init(document.getElementById('main'));
echarts.registerTransform(ecStat.transform.clustering);

// 模拟设备数据：[温度（℃）, 湿度（%）, 振动频率（Hz）, 设备ID]
const deviceData = [
  [25, 50, 10, 'D001'], [26, 52, 11, 'D002'], [24, 48, 9, 'D003'], [35, 60, 25, 'D004'], [36, 62, 26, 'D005'],
  [40, 70, 30, 'D006'], [23, 45, 8, 'D007'], [38, 65, 28, 'D008'], [27, 55, 12, 'D009'], [39, 68, 29, 'D010']
  // 更多数据...
];

const option = {
  dataset: [{
    id: 'raw',
    source: deviceData
  }, {
    id: 'clustered',
    fromDatasetId: 'raw',
    transform: {
      type: 'ecStat:clustering',
      config: {
        method: 'dbscan',
        eps: 5,
        minSamples: 2,
        dimensions: [0, 2],
        outputClusterIndexDimension: { name: 'CLUSTER_IDX' }
      }
    }
  }],
  xAxis: { type: 'value', name: '温度（℃）' },
  yAxis: { type: 'value', name: '振动频率（Hz）' },
  series: {
    type: 'scatter',
    datasetId: 'clustered',
    encode: { x: 0, y: 2, itemName: 3 },
    itemStyle: {
      color: function(params) {
        const clusterIdx = params.data[4];
        // 不同簇代表不同设备状态
        const status = ['正常', '预警', '故障'];
        const colors = ['#8acaaa', '#ea946e', '#cc5664'];
        return clusterIdx >= 0 ? colors[clusterIdx % colors.length] : '#999999';
      }
    },
    symbolSize: function(params) {
      // 根据湿度调整点大小，湿度过高或过低点更大
      const humidity = params.data[1];
      return Math.abs(humidity - 50) / 5 + 10;
    },
    tooltip: {
      formatter: function(params) {
        const data = params.data;
        const clusterIdx = data[4];
        const status = ['正常', '预警', '故障'];
        return `设备ID: ${data[3]}<br>温度: ${data[0]}℃<br>湿度: ${data[1]}%<br>振动频率: ${data[2]}Hz<br>状态: ${clusterIdx >= 0 ? status[clusterIdx % status.length] : '未知'}`;
      }
    }
  }
};

chart.setOption(option);

效果对比

通过三个行业化案例可以看出，ECharts+DBSCAN技术能够根据不同行业的数据特点和业务需求，实现针对性的聚类分析和可视化。金融风控案例中，成功检测出异常交易；电商推荐案例中，实现了用户的分群；物联网监测案例中，对设备状态进行了有效监测。

珠穆朗玛峰图片，象征着在数据聚类分析的道路上不断攀登高峰，探索数据的奥秘。

核心实现：src/data/transform/clustering.ts

💡 专家提示：在进行行业化案例应用时，需要深入理解业务场景，选择合适的数据维度和聚类参数，以确保聚类结果的有效性和实用性。

五、算法局限性分析

🔥 实践价值：了解DBSCAN算法的局限性以及其他聚类算法的适用边界，能够帮助开发人员在实际应用中做出更合理的技术选型。

痛点解析

每种聚类算法都有其适用范围和局限性，盲目选择算法可能导致聚类结果不理想，影响数据分析的准确性和可靠性。

不同聚类算法对比

算法	优点	缺点	适用场景
DBSCAN	能发现任意形状的簇，对噪声不敏感	对参数eps和minSamples敏感，高维数据效果不佳	数据分布密度不均匀，存在噪声的场景
K-means	简单高效，对大数据集处理速度快	需要预先指定簇的数量，对初始聚类中心敏感，只能发现球形簇	数据分布呈球形，簇数量已知的场景
层次聚类	不需要预先指定簇的数量，能生成聚类树	计算复杂度高，对噪声和异常点敏感	数据具有层次结构，需要展示聚类过程的场景

替代方案适用边界

当数据分布呈明显的球形且簇数量已知时，K-means算法可能是更好的选择，其计算效率较高。
当需要展示数据的层次结构关系时，层次聚类算法更为合适。
当数据维度较高时，可以先进行降维处理（如使用PCA），再应用DBSCAN或其他聚类算法。

💡 专家提示：在实际应用中，可以尝试多种聚类算法，并通过评估指标（如轮廓系数、Calinski-Harabasz指数等）比较不同算法的聚类效果，选择最适合当前数据和业务场景的算法。

技术选型决策树

graph TD
    A[开始] --> B{数据是否有明显的球形分布？}
    B -- 是 --> C{是否知道簇的数量？}
    C -- 是 --> D[选择K-means算法]
    C -- 否 --> E[选择层次聚类算法]
    B -- 否 --> F{数据中是否存在噪声？}
    F -- 是 --> G[选择DBSCAN算法]
    F -- 否 --> H{是否需要展示层次结构？}
    H -- 是 --> E
    H -- 否 --> I[根据具体数据特点选择其他算法]