AKShare 项目东方财富接口数据获取限制问题解析

2025-05-20 09:00:41作者：邵娇湘

问题背景

在使用 AKShare 开源金融数据接口库时，部分用户发现通过 stock_sh_a_spot_em() 和 stock_sz_a_spot_em() 等接口获取东方财富网数据时，仅能返回200条记录，而实际数据量远大于此。这一问题影响了用户获取完整市场数据的能力，特别是在处理概念板块等数据量较大的场景时尤为明显。

技术原因分析

经过深入调查，发现这一限制源于东方财富网API接口的设计特性。东方财富的接口采用了分页机制，并设置了单次请求的最大返回记录数为200条。这是常见的API设计模式，主要出于以下考虑：

服务器性能优化：限制单次请求数据量可减轻服务器负载
网络传输效率：避免单次响应数据包过大
反爬虫机制：防止数据被大规模抓取

解决方案演进

初期临时解决方案

在问题初期，社区用户提出了多种临时解决方案。其中较为典型的是通过修改请求参数中的 pz 值尝试突破限制，但实际测试表明东方财富服务器端硬性限制了最大200条记录。

官方修复方案

AKShare 维护团队在1.15.97版本中提供了官方修复方案。该方案主要改进包括：

实现自动分页请求机制
添加合理的请求间隔
完善错误处理和重试机制

进阶解决方案

对于更复杂的使用场景，有开发者提出了更完善的解决方案，主要包含以下关键技术点：

分页计算：根据总记录数和每页大小计算所需请求次数
数据聚合：将多页结果合并为完整数据集
请求间隔：添加适当延迟避免触发反爬机制
字段映射：正确处理API返回的字段名称映射

最佳实践建议

基于社区经验，建议开发者在处理东方财富接口时注意以下几点：

版本控制：保持AKShare库为最新版本
错误处理：添加适当的异常捕获和重试逻辑
请求频率：控制请求频率，建议间隔1秒以上
数据验证：检查返回数据的完整性和一致性
类型转换：确保数值型字段正确转换为数字类型

技术实现示例

以下是一个改进后的概念板块数据获取实现示例，展示了完整的分页处理流程：

import pandas as pd
import requests
import math
import time

def get_concept_board_data():
    url = "东方财富API地址"
    all_data = []
    
    # 初始请求参数
    params = {
        "pn": "1",
        "pz": "200",
        # 其他必要参数...
    }
    
    # 获取第一页数据并确定总页数
    response = requests.get(url, params=params)
    data_json = response.json()
    total = data_json["data"]["total"]
    all_data.extend(data_json["data"]["diff"].values())
    
    # 计算并获取剩余页数据
    total_pages = math.ceil(total / 200)
    for page in range(2, total_pages + 1):
        params.update({"pn": str(page)})
        response = requests.get(url, params=params)
        # 数据处理逻辑...
        time.sleep(1)
    
    # 数据整理和类型转换
    # ...
    return processed_data