首页
/ VideoMimic项目:从视频到机器人动作的完整处理流程指南

VideoMimic项目:从视频到机器人动作的完整处理流程指南

2025-07-08 01:03:29作者:明树来

概述

VideoMimic是一个强大的视频处理框架,能够将单摄像头拍摄的人类动作视频转换为适用于机器人模仿的运动数据。本指南将详细介绍该项目的完整处理流程,包括环境准备、视频预处理、环境重建、运动优化和机器人动作重定向等关键步骤。

环境准备

在开始处理前,需要配置两个独立的环境:

  1. 主处理环境(vm1rs)

    • Python 3.12
    • CUDA 12.4+
    • 用于大部分处理流程
  2. 重建专用环境(vm1recon)

    • Python 3.10
    • CUDA 11.8
    • 用于MegaSam、GeoCalib和NKSR网格化处理

快速开始

对于希望快速体验完整流程的用户,可以使用以下一键式命令:

# 首先提取视频帧
python utilities/extract_frames_from_video.py \
    --video-path {视频名称}.{扩展名} \
    --output-dir ./demo_data/input_images/{视频名称}/cam01 \
    --start-frame 0 \
    --end-frame 300

# 运行完整处理流程
./process_video.sh <视频名称> <起始帧> <结束帧> <子采样因子> g1 <人体高度>

示例:

./process_video.sh my_video 0 100 2 g1 1.8

视频拍摄建议

  • 移动相机有助于获得更好的视差效果
  • 尽量拍摄完整场景表面
  • 保持人物在画面中心,大小适中
  • 避免人物被遮挡
  • 避免无纹理表面(如纯白墙面、强光室外等)

数据处理流程详解

阶段0:视频预处理

选项A:自动化预处理(推荐)

bash preprocess_human.sh <视频名称> <可视化标志>

选项B:手动分步预处理

  1. 人体检测与分割(SAM2)

    python stage0_preprocessing/sam2_segmentation.py \
        --video-dir ./demo_data/input_images/my_video/cam01 \
        --output-dir ./demo_data/input_masks/my_video/cam01 \
        --vis
    
  2. 2D姿态估计(ViTPose)

    python stage0_preprocessing/vitpose_2d_poses.py \
        --video-dir ./demo_data/input_images/my_video/cam01 \
        --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
        --output-dir ./demo_data/input_2d_poses/my_video/cam01 \
        --vis
    
  3. 3D人体网格估计(VIMO)

    python stage0_preprocessing/vimo_3d_mesh.py \
        --img-dir ./demo_data/input_images/my_video/cam01 \
        --mask-dir ./demo_data/input_masks/my_video/cam01 \
        --out-dir ./demo_data/input_3d_meshes/my_video/cam01
    
  4. 接触检测(BSTRO)

    python stage0_preprocessing/bstro_contact_detection.py \
        --video-dir ./demo_data/input_images/my_video/cam01 \
        --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
        --output-dir ./demo_data/input_contacts/my_video/cam01 \
        --feet-contact-ratio-thr 0.2 \
        --contact-thr 0.95
    

阶段1:环境重建

选项A:MegaSam重建(高精度,约24GB+显存)

conda activate vm1recon
python stage1_reconstruction/megasam_reconstruction.py \
    --out-dir ./demo_data/input_megasam \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --start-frame 0 \
    --end-frame 100 \
    --stride 1 \
    --gsam2

选项B:Monst3r重建(适用于无纹理场景,约80GB+显存)

conda activate vm1rs
python stage1_reconstruction/monst3r_depth_prior_reconstruction.py \
    --out-dir ./demo_data/input_align3r \
    --video-dir ./demo_data/input_images/my_video/cam01 \
    --start-frame 0 \
    --end-frame 100 \
    --stride 1 \
    --gsam2

阶段2:MegaHunter优化

conda activate vm1rs
python stage2_optimization/megahunter_optimization.py \
    --world-env-path ./demo_data/input_megasam/megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1.h5 \
    --bbox-dir ./demo_data/input_masks/my_video/cam01/json_data \
    --pose2d-dir ./demo_data/input_2d_poses/my_video/cam01 \
    --smpl-dir ./demo_data/input_3d_meshes/my_video/cam01 \
    --out-dir ./demo_data/output_smpl_and_points

阶段3:后处理

完整后处理管道

conda activate vm1recon
python stage3_postprocessing/postprocessing_pipeline.py \
    --megahunter-path ./demo_data/output_smpl_and_points/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1.h5 \
    --out-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1 \
    --conf-thr 0.0 \
    --is-megasam \
    --scale-bbox3d 1.5 \
    --vis

阶段4:机器人动作重定向

conda activate vm1rs
python stage4_retargeting/robot_motion_retargeting.py \
    --src-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1/ \
    --contact-dir ./demo_data/input_contacts/my_video/cam01 \
    --vis

结果可视化

完整结果可视化

python visualization/complete_results_egoview_visualization.py \
    --postprocessed-dir ./demo_data/output_calib_mesh/megahunter_megasam_reconstruction_results_my_video_cam01_frame_0_100_subsample_1 \
    --robot-name g1 \
    --bg-pc-downsample-factor 4 \
    --is-megasam \
    --save-ego-view

多人物处理

VideoMimic支持处理场景中的多个人物:

# 启用多人物处理
python stage0_preprocessing/vitpose_2d_poses.py ... --multihuman --top-k 3
python stage2_optimization/megahunter_optimization.py ... --multihuman --top-k 3

注意事项

  1. 建议输入帧数不超过300帧,否则可能导致GPU内存溢出
  2. 代码会自动将帧数填充到100的倍数以优化JAX JIT编译
  3. 动作重定向对成本权重非常敏感,可以尝试调整权重参数获得最佳效果

通过本指南,用户可以全面了解VideoMimic项目的处理流程,并根据实际需求选择合适的处理方式和参数配置。

登录后查看全文
热门项目推荐

热门内容推荐

最新内容推荐

项目优选

收起
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
118
1.88 K
kernelkernel
deepin linux kernel
C
22
6
Cangjie-ExamplesCangjie-Examples
本仓将收集和展示高质量的仓颉示例代码,欢迎大家投稿,让全世界看到您的妙趣设计,也让更多人通过您的编码理解和喜爱仓颉语言。
Cangjie
341
1.24 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
191
271
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
912
546
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
377
388
openGauss-serveropenGauss-server
openGauss kernel ~ openGauss is an open source relational database management system
C++
143
188
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
8
0
金融AI编程实战金融AI编程实战
为非计算机科班出身 (例如财经类高校金融学院) 同学量身定制,新手友好,让学生以亲身实践开源开发的方式,学会使用计算机自动化自己的科研/创新工作。案例以量化投资为主线,涉及 Bash、Python、SQL、BI、AI 等全技术栈,培养面向未来的数智化人才 (如数据工程师、数据分析师、数据科学家、数据决策者、量化投资人)。
Jupyter Notebook
68
58
harmony-utilsharmony-utils
harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志,异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作,能够满足各种不同的开发需求。
ArkTS
81
2