DotnetSpider 数据存储前的过滤处理实践

2025-06-16 18:24:59作者：秋泉律Samson

在 DotnetSpider 项目中，我们经常需要处理爬取到的数据，在存储到数据库之前进行必要的过滤和清洗。本文将详细介绍如何通过继承和重写相关组件来实现这一需求。

数据过滤的必要性

在实际爬虫项目中，原始爬取数据往往包含以下问题：

包含不需要的字段或信息
数据格式不规范
存在重复数据
包含敏感信息需要脱敏

这些问题都需要在数据存储前进行处理，以保证最终入库数据的质量和合规性。

实现方案

DotnetSpider 提供了两种主要方式来实现数据存储前的过滤处理：

1. 继承 EntityXXParse 类

EntityXXParse 是 DotnetSpider 中负责实体解析的核心组件。我们可以通过继承并重写其方法来添加过滤逻辑：

public class FilteredEntityParser<T> : EntityParser<T> where T : EntityBase<T>
{
    protected override List<T> Parse(DataContext context)
    {
        // 获取原始解析结果
        var items = base.Parse(context);
        
        // 添加过滤逻辑
        return items.Where(item => 
            /* 你的过滤条件 */
        ).ToList();
    }
}

2. 继承 Storage 类

另一种方式是通过继承 Storage 基类，在数据存储前进行过滤：

public class FilteredStorage : Storage
{
    public override async Task StoreAsync(DataFlowContext context)
    {
        // 获取原始数据
        var items = context.GetData(typeof(List<T>)) as List<T>;
        
        // 执行过滤
        var filteredItems = items.Where(item => 
            /* 你的过滤条件 */
        ).ToList();
        
        // 更新上下文数据
        context.AddData(typeof(List<T>), filteredItems);
        
        // 调用基类存储方法
        await base.StoreAsync(context);
    }
}

实际应用示例

假设我们有一个产品爬虫，需要过滤掉价格低于10元的产品：

public class ProductFilterParser : EntityParser<Product>
{
    protected override List<Product> Parse(DataContext context)
    {
        var products = base.Parse(context);
        return products.Where(p => p.Price >= 10).ToList();
    }
}

或者在存储层过滤：

public class ProductStorage : Storage
{
    public override async Task StoreAsync(DataFlowContext context)
    {
        var products = context.GetData(typeof(List<Product>)) as List<Product>;
        var validProducts = products.Where(p => !string.IsNullOrEmpty(p.Name) && p.Price > 0).ToList();
        context.AddData(typeof(List<Product>), validProducts);
        await base.StoreAsync(context);
    }
}