Waymo Open Dataset中E2E驾驶数据的10Hz相机序列访问方法解析

2026-02-04 04:35:31作者：魏献源Searcher

数据背景

Waymo Open Dataset的端到端驾驶(E2E)子集提供了丰富的传感器数据，其中包含8个方向(前、前左、前右、左侧、右侧、后、后左、后右)的相机图像。根据官方文档说明，每个驾驶片段都包含10Hz的相机视频序列，训练数据持续20秒，测试数据持续12秒。

技术挑战

许多开发者在实际使用中发现，虽然文档提到了完整的视频序列，但在提供的示例代码中只能获取当前时间戳的8张相机图像。这给需要时序分析的研究带来了困难，特别是需要访问历史帧图像时。

解决方案详解

数据组织结构

E2E数据集中的每个帧数据都包含两个关键标识符：

序列名称(sequence_name)：标识所属的驾驶片段
样本索引(sample_idx)：标识该帧在序列中的位置

这些信息可以通过解析帧数据中的context.name字段获得，格式为"序列名称-样本索引"。

完整序列获取方法

要获取完整的相机序列，需要以下步骤：

数据遍历：首先需要遍历整个数据集中的所有帧
序列聚合：将属于同一序列的帧按照样本索引排序
图像提取：从排序后的帧中提取各时间点的相机图像

示例处理流程：

# 初始化数据集
dataset = tf.data.TFRecordDataset(filenames, compression_type='')
dataset_iter = dataset.as_numpy_iterator()

# 获取目标序列
target_frame = next(dataset_iter)
target_data = wod_e2ed_pb2.E2EDFrame()
target_data.ParseFromString(target_frame)
target_sequence, _ = target_data.frame.context.name.split('-')

# 聚合序列帧
sequence_frames = []
for frame_bytes in dataset:
    frame_data = wod_e2ed_pb2.E2EDFrame()
    frame_data.ParseFromString(frame_bytes.numpy())
    sequence, _ = frame_data.frame.context.name.split('-')
    
    if sequence == target_sequence:
        sequence_frames.append(frame_data)

# 按样本索引排序
sequence_frames.sort(key=lambda x: int(x.frame.context.name.split('-')[1]))