OSpider 开源地理数据采集工具使用指南

2026-03-13 04:12:08作者：裴麒琰

核心功能解析

OSpider 作为开源矢量地理数据获取与预处理工具，采用模块化架构设计，提供四大核心功能模块，满足不同场景下的地理数据采集需求：

1. POI数据采集模块 📍

功能描述：支持多维度地理范围的兴趣点（POI）数据采集，适用于商业分析、城市规划等场景。例如：餐饮连锁企业可通过行政区边界采集竞争对手分布数据， retail品牌可通过圆形区域分析门店辐射范围内的潜在客户聚集点。

核心实现：code/POISpider.py 提供五种采集模式：

getPOI_byAD()：按行政区划名称采集（如"北京市朝阳区"）
getPOI_byBounds()：按矩形边界坐标采集
getPOI_byCircle()：按圆心坐标+半径采集
getPOI_byFile()：按文件导入的多边形区域采集
getPOI_byBatch()：批量任务处理模式

2. 地址解析模块 🔍

功能描述：将文本地址转换为地理坐标，适用于物流配送路径优化、客户位置可视化等场景。例如：电商平台可将用户收货地址批量转换为经纬度，实现智能分仓和配送路线规划。

核心实现：code/Geocoder.py 提供 Geocoder() 函数，支持批量地址解析与结果导出。

3. 坐标转换模块 🔄

功能描述：解决不同地图服务商坐标系不兼容问题，支持WGS84、GCJ02、BD09等主流坐标系互转。例如：将GPS设备采集的WGS84坐标转换为高德地图可用的GCJ02坐标。

核心实现：code/CoordTrans.py 提供完整转换函数集，包括：

gcj02_to_bd09()：火星坐标系转百度坐标系
wgs84_to_gcj02()：GPS坐标系转火星坐标系
coordtrans_byFile()：批量文件坐标转换

4. 行政区划数据模块 🏙️

功能描述：获取精确的行政区划边界数据，支持多级行政单位查询。例如：科研机构可获取省级行政区边界数据用于区域经济分析。

核心实现：code/ADSpider.py 提供 getAD_byName() 等行政区划数据获取函数。

快速上手流程

1. 环境准备

# 克隆项目仓库
git clone https://gitcode.com/gh_mirrors/os/OSpider

# 安装依赖
cd OSpider/code
pip install -r requirements.txt

2. 基础使用示例

示例1：采集特定区域POI数据

from POISpider import POISpider

# 初始化爬虫
spider = POISpider()
# 设置API密钥（多密钥轮换提高采集效率）
spider.set_key(["your_api_key_1", "your_api_key_2"])
# 按行政区划采集"咖啡馆"POI
spider.getPOI_byAD("北京市朝阳区", "咖啡馆", "餐饮服务")

示例2：地址批量解析

from Geocoder import Geocoder

# 解析CSV文件中的地址列表
Geocoder(
    key="your_api_key",
    inputFilePath="input_addresses.csv",
    outputDirPath="./results"
)

示例3：坐标转换

from CoordTrans import gcj02_to_bd09

# 单个坐标转换
lng, lat = gcj02_to_bd09(116.39748, 39.90882)
print(f"百度坐标: {lng}, {lat}")

# 批量文件转换
coordtrans_byFile(
    inputFilePath="input.csv",
    outFilePath="output.csv",
    origin_crs="wgs84",
    target_crs="gcj02"
)

深度配置指南

核心参数配置表

参数类别	参数名称	作用说明	推荐值	高级配置
采集控制	grid_num	区域网格划分数量	6	复杂区域可增至10
采集控制	threshold	单网格POI数量阈值	100	密集区域可降至50
性能优化	thread_num	并发线程数	2	根据API限额调整
密钥管理	thread_protect	密钥轮换保护	2	避免单密钥请求过于频繁

环境变量配置

创建 .env 文件设置全局参数：

# API密钥配置
API_KEYS=key1,key2,key3

# 网络请求配置
REQUEST_TIMEOUT=10
RETRY_TIMES=3

# 存储配置
DEFAULT_OUTPUT_DIR=./outputs

高级功能配置

1. 多线程任务优化

# 调整线程数和网格密度平衡采集效率与数据完整性
spider.set_env(
    grid_num=8,        # 更精细的网格划分
    threshold=80,      # 降低单网格阈值
    thread_num=4       # 增加并发线程
)

2. 自定义输出字段

通过修改 POISpider.py 中的 getPOI() 方法自定义输出字段：

# 添加"营业时间"和"人均消费"字段
def getPOI(self, url):
    # ...原有代码...
    result = {
        # ...默认字段...
        "opening_hours": data.get("opening_hours"),
        "avg_price": data.get("price")
    }
    return result