首页
/ VideoMimic项目:从视频到机器人动作的完整处理流程指南

VideoMimic项目:从视频到机器人动作的完整处理流程指南

2025-07-08 23:26:20作者:明树来

概述

VideoMimic是一个强大的视频处理框架,能够将单摄像头拍摄的人类动作视频转换为适用于机器人模仿的运动数据。本指南将详细介绍该项目的完整处理流程,包括环境准备、视频预处理、环境重建、运动优化和机器人动作重定向等关键步骤。

环境准备

在开始处理前,需要配置两个独立的环境:

  1. 主处理环境(vm1rs)

    • Python 3.12
    • CUDA 12.4+
    • 用于大部分处理流程
  2. 重建专用环境(vm1recon)

    • Python 3.10
    • CUDA 11.8
    • 用于MegaSam、GeoCalib和NKSR网格化处理

快速开始

对于希望快速体验完整流程的用户,可以使用以下一键式命令:

# 首先提取视频帧
python utilities/extract_frames_from_video.py \
    --video-path {视频名称}.{扩展名} \
    --output-dir ./demo_data/input_images/{视频名称}/cam01 \
    --start-frame 0 \
    --end-frame 300

# 运行完整处理流程
./process_video.sh <视频名称> <起始帧> <结束帧> <子采样因子> g1 <人体高度>

示例:

./process_video.sh my_video 0 100 2 g1 1.8

视频拍摄建议

  • 移动相机有助于获得更好的视差效果
  • 尽量拍摄完整场景表面
  • 保持人物在画面中心,大小适中
  • 避免人物被遮挡
  • 避免无纹理表面(如纯白墙面、强光室外等)

数据处理流程详解

阶段0:视频预处理

选项A:自动化预处理(推荐)

bash preprocess_human.sh <视频名称> <可视化标志>

选项B:手动分步预处理

  1. 人体检测与分割(SAM2)

    python stage0_preprocessing/sam2_segmentation.py \
        --video-dir ./demo_data/input_images/my_video/cam01 \
        --output-dir ./demo_data/input_masks/my_video/cam01 \
        --vis
    
  2. 2D姿态估计(ViTPose)

    python stage0_preprocessing/vitpose_2d_poses.py \
        --video-dir ./demo_data/input_images/my_video/cam01 \
        --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
        --output-dir ./demo_data/input_2d_poses/my_video/cam01 \
        --vis
    
  3. 3D人体网格估计(VIMO)

    python stage0_preprocessing/vimo_3d_mesh.py \
        --img-dir ./demo_data/input_images/my_video/cam01 \
        --mask-dir ./demo_data/input_masks/my_video/cam01 \
        --out-dir ./demo_data/input_3d_meshes/my_video/cam01
    
  4. 接触检测(BSTRO)

    python stage0_preprocessing/bstro_contact_detection.py \
        --video-dir ./demo_data/input_images/my_video/cam01 \
        --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
        --output-dir ./demo_data/input_contacts/my_video/cam01 \
        --feet-contact-ratio-thr 0.2 \
        --contact-thr 0.95
    

阶段1:环境重建

选项A:MegaSam重建(高精度,约24GB+显存)

conda activate vm1recon
python stage1_reconstruction/megasam_reconstruction.py \
    --out-dir ./demo_data/input_megasam \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --start-frame 0 \
    --end-frame 100 \
    --stride 1 \
    --gsam2

选项B:Monst3r重建(适用于无纹理场景,约80GB+显存)

conda activate vm1rs
python stage1_reconstruction/monst3r_depth_prior_reconstruction.py \
    --out-dir ./demo_data/input_align3r \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --start-frame 0 \
    --end-frame 100 \
    --stride 1 \
    --gsam2

阶段2:MegaHunter优化

conda activate vm1rs
python stage2_optimization/megahunter_optimization.py \
    --world-env-path ./demo_data/input_megasam/megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1.h5 \
    --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
    --pose2d-dir ./demo_data/input_2d_poses/my_video/cam01 \
    --smpl-dir ./demo_data/input_3d_meshes/my_video/cam01 \
    --out-dir ./demo_data/output_smpl_and_points

阶段3:后处理

完整后处理管道

conda activate vm1recon
python stage3_postprocessing/postprocessing_pipeline.py \
    --megahunter-path ./demo_data/output_smpl_and_points/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1.h5 \
    --out-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1 \
    --conf-thr 0.0 \
    --is-megasam \
    --scale-bbox3d 1.5 \
    --vis

阶段4:机器人动作重定向

conda activate vm1rs
python stage4_retargeting/robot_motion_retargeting.py \
    --src-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1/ \
    --contact-dir ./demo_data/input_contacts/my_video/cam01 \
    --vis

结果可视化

完整结果可视化

python visualization/complete_results_egoview_visualization.py \
    --postprocessed-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1 \
    --robot-name g1 \
    --bg-pc-downsample-factor 4 \
    --is-megasam \
    --save-ego-view

多人物处理

VideoMimic支持处理场景中的多个人物:

# 启用多人物处理
python stage0_preprocessing/vitpose_2d_poses.py ... --multihuman --top-k 3
python stage2_optimization/megahunter_optimization.py ... --multihuman --top-k 3

注意事项

  1. 建议输入帧数不超过300帧,否则可能导致GPU内存溢出
  2. 代码会自动将帧数填充到100的倍数以优化JAX JIT编译
  3. 动作重定向对成本权重非常敏感,可以尝试调整权重参数获得最佳效果

通过本指南,用户可以全面了解VideoMimic项目的处理流程,并根据实际需求选择合适的处理方式和参数配置。

登录后查看全文
热门项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
24
9
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
leetcodeleetcode
🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer(第 2 版)》、《程序员面试金典(第 6 版)》题解
Java
64
19
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
392
3.9 K
flutter_flutterflutter_flutter
暂无简介
Dart
671
156
giteagitea
喝着茶写代码!最易用的自托管一站式代码托管平台,包含Git托管,代码审查,团队协作,软件包和CI/CD。
Go
23
0
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
JavaScript
261
322
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
661
312
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.2 K
655
rainbondrainbond
无需学习 Kubernetes 的容器平台,在 Kubernetes 上构建、部署、组装和管理应用,无需 K8s 专业知识,全流程图形化管理
Go
15
1