HFTBacktest项目中的数据准备与常见问题解析

2025-06-30 20:11:56作者：霍妲思

Free, open source, a high frequency trading and market making backtesting and trading bot, which accounts for limit orders, queue positions, and latencies, utilizing full tick data for trades and order books(Level-2 and Level-3), with real-world crypto trading examples for Binance and Bybit

项目地址：https://gitcode.com/gh_mirrors/hf/hftbacktest

数据转换与预处理

在HFTBacktest项目中，数据准备是高频交易回测的第一步关键环节。项目提供了binancefutures.convert函数用于将原始交易数据转换为回测所需的格式。该函数接受以下重要参数：

buffer_size：设置缓冲区大小，建议根据数据量合理设置（如200,000,000）
combined_stream：是否合并数据流
output_filename：指定输出文件路径

数据转换完成后，需要使用create_last_snapshot函数创建市场快照，该函数需要指定：

tick_size：最小价格变动单位（如BTC/USD为0.1）
lot_size：最小交易量单位（如BTC/USD为0.001）
initial_snapshot：可选参数，用于指定前一交易日的收盘快照

常见问题与解决方案

1. 中间价格不变问题

在回测过程中，开发者可能会遇到中间价格（mid_price）不变化的问题。这通常表现为：

mid_price_tick和prev_mid_price_tick始终相同
mid_price_chg计算结果全为0

排查步骤：

首先检查原始买卖价数据是否正确
确认tick_size设置是否合理
打印并检查best_bid_tick和best_ask_tick的值
验证中间价格计算公式：mid_price_tick = (best_bid + best_ask) / tick_size / 2.0

解决方案：

确保tick_size与交易品种的最小价格变动单位匹配
检查数据转换过程中是否有溢出情况（如出现9223372036854775807等极大值）

2. 延迟数据处理问题

项目早期版本中的延迟数据字段命名存在不一致问题，正确的字段命名应为：

order_latency[i].req_ts = req_ts
order_latency[i].exch_ts = order_exch_ts
order_latency[i].resp_ts = resp_ts

3. 数据完整性验证

为确保回测数据质量，建议进行以下验证：

绘制买卖价曲线，观察价格变动是否合理
检查arrival_depth值，正常情况下不应大量出现-inf
统计mid_price_chg非零点的数量，确认市场有足够的价格波动

最佳实践建议

数据预处理：
- 始终从可靠数据源获取原始数据
- 转换前确认数据的时间戳顺序是否正确
- 为每个交易日创建独立的快照文件
参数设置：
- 根据交易品种特性设置正确的tick_size和lot_size
- 缓冲区大小应根据实际内存情况合理设置
验证流程：
- 转换完成后立即检查输出文件的有效性
- 回测前先进行小规模数据测试
- 使用可视化工具验证关键指标（如买卖价差、成交量等）

通过遵循上述流程和注意事项，可以避免大多数数据准备阶段的问题，确保高频交易回测的准确性和可靠性。

hftbacktest

项目地址：https://gitcode.com/gh_mirrors/hf/hftbacktest

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

1.1 K

611

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

HFTBacktest项目中的数据准备与常见问题解析

数据转换与预处理