VideoMimic项目：从视频到机器人动作的完整处理流程指南

2025-07-08 18:11:21作者：明树来

概述

VideoMimic是一个强大的视频处理框架，能够将单摄像头拍摄的人类动作视频转换为适用于机器人模仿的运动数据。本指南将详细介绍该项目的完整处理流程，包括环境准备、视频预处理、环境重建、运动优化和机器人动作重定向等关键步骤。

环境准备

在开始处理前，需要配置两个独立的环境：

主处理环境(vm1rs)：
- Python 3.12
- CUDA 12.4+
- 用于大部分处理流程
重建专用环境(vm1recon)：
- Python 3.10
- CUDA 11.8
- 用于MegaSam、GeoCalib和NKSR网格化处理

快速开始

对于希望快速体验完整流程的用户，可以使用以下一键式命令：

# 首先提取视频帧
python utilities/extract_frames_from_video.py \
    --video-path {视频名称}.{扩展名} \
    --output-dir ./demo_data/input_images/{视频名称}/cam01 \
    --start-frame 0 \
    --end-frame 300

# 运行完整处理流程
./process_video.sh <视频名称> <起始帧> <结束帧> <子采样因子> g1 <人体高度>

示例：

./process_video.sh my_video 0 100 2 g1 1.8

视频拍摄建议

移动相机有助于获得更好的视差效果
尽量拍摄完整场景表面
保持人物在画面中心，大小适中
避免人物被遮挡
避免无纹理表面(如纯白墙面、强光室外等)

数据处理流程详解

阶段0：视频预处理

选项A：自动化预处理(推荐)

bash preprocess_human.sh <视频名称> <可视化标志>

选项B：手动分步预处理

人体检测与分割(SAM2)

python stage0_preprocessing/sam2_segmentation.py \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --output-dir ./demo_data/input_masks/my_video/cam01 \
    --vis

2D姿态估计(ViTPose)

python stage0_preprocessing/vitpose_2d_poses.py \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
    --output-dir ./demo_data/input_2d_poses/my_video/cam01 \
    --vis

3D人体网格估计(VIMO)

python stage0_preprocessing/vimo_3d_mesh.py \
    --img-dir ./demo_data/input_images/my_video/cam01 \
    --mask-dir ./demo_data/input_masks/my_video/cam01 \
    --out-dir ./demo_data/input_3d_meshes/my_video/cam01

接触检测(BSTRO)

python stage0_preprocessing/bstro_contact_detection.py \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
    --output-dir ./demo_data/input_contacts/my_video/cam01 \
    --feet-contact-ratio-thr 0.2 \
    --contact-thr 0.95

阶段1：环境重建

选项A：MegaSam重建(高精度，约24GB+显存)

conda activate vm1recon
python stage1_reconstruction/megasam_reconstruction.py \
    --out-dir ./demo_data/input_megasam \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --start-frame 0 \
    --end-frame 100 \
    --stride 1 \
    --gsam2

选项B：Monst3r重建(适用于无纹理场景，约80GB+显存)

conda activate vm1rs
python stage1_reconstruction/monst3r_depth_prior_reconstruction.py \
    --out-dir ./demo_data/input_align3r \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --start-frame 0 \
    --end-frame 100 \
    --stride 1 \
    --gsam2

阶段2：MegaHunter优化

conda activate vm1rs
python stage2_optimization/megahunter_optimization.py \
    --world-env-path ./demo_data/input_megasam/megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1.h5 \
    --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
    --pose2d-dir ./demo_data/input_2d_poses/my_video/cam01 \
    --smpl-dir ./demo_data/input_3d_meshes/my_video/cam01 \
    --out-dir ./demo_data/output_smpl_and_points

阶段3：后处理

完整后处理管道

conda activate vm1recon
python stage3_postprocessing/postprocessing_pipeline.py \
    --megahunter-path ./demo_data/output_smpl_and_points/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1.h5 \
    --out-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1 \
    --conf-thr 0.0 \
    --is-megasam \
    --scale-bbox3d 1.5 \
    --vis

阶段4：机器人动作重定向

conda activate vm1rs
python stage4_retargeting/robot_motion_retargeting.py \
    --src-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1/ \
    --contact-dir ./demo_data/input_contacts/my_video/cam01 \
    --vis

结果可视化

完整结果可视化

python visualization/complete_results_egoview_visualization.py \
    --postprocessed-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1 \
    --robot-name g1 \
    --bg-pc-downsample-factor 4 \
    --is-megasam \
    --save-ego-view

多人物处理

VideoMimic支持处理场景中的多个人物：

# 启用多人物处理
python stage0_preprocessing/vitpose_2d_poses.py ... --multihuman --top-k 3
python stage2_optimization/megahunter_optimization.py ... --multihuman --top-k 3