VideoMimic项目环境配置全指南：从零搭建真实视频到机器人动作仿真系统

2025-07-08 09:24:08作者：幸俭卉

项目概述

VideoMimic是一个创新的真实视频到仿真（Real-to-Sim）转换系统，能够将人类动作视频转化为机器人可执行的运动数据。该系统通过先进的计算机视觉和深度学习技术，实现了从视频输入到机器人动作控制的全流程处理。

环境配置特点

VideoMimic项目需要配置两个独立的conda环境，这是由于核心组件对CUDA和Python版本的特殊要求：

主环境（vm1rs）：
- Python 3.12
- CUDA 12.4+
- 负责人体预处理、运动优化和动作重定向
重建环境（vm1reocn）：
- Python 3.10
- CUDA 11.8
- 专用于MegaSam重建、NKSR网格化和GeoCalib重力校准

技术说明：这种双环境设计源于MegaSam组件对xformers 0.0.27及以下版本的依赖，而这些版本仅支持CUDA 11.8环境编译。同时NKSR组件也绑定在CUDA 11.8上。

系统要求

操作系统：推荐Ubuntu 24.04
硬件配置：
- NVIDIA GPU（建议A5000/A6000/A100系列）
- 至少10GB可用磁盘空间用于模型和数据存储
软件依赖：
- Conda包管理器
- 正确版本的CUDA工具包

详细安装指南

1. 主环境（vm1rs）配置

基础环境创建

conda create -n vm1rs python=3.12
conda activate vm1rs
pip install -r requirements.txt

人体检测与姿态估计组件

Grounded-SAM-2（边界框和分割）

cd third_party/
git clone Grounded-SAM-2仓库地址
cd Grounded-SAM-2
export CUDA_HOME=/usr/local/cuda-12.4
pip install -e .
pip install --no-build-isolation -e grounding_dino
pip install transformers
cd ../..

ViTPose（2D姿态估计）

pip install -U openmim
pip install --upgrade setuptools
mim install mmcv==1.3.9
cd third_party/
git clone ViTPose仓库地址
cd ViTPose
pip install -v -e .
cd ../..

VIMO（3D人体网格重建）
```
pip install VIMO仓库地址
```

BSTRO（接触检测）

cd third_party/
git clone --recursive bstro仓库地址
cd bstro
python setup.py build develop
cd ../..

运动优化组件

MegaHunter + PyRoki

pip install -U "jax[cuda12]"
pip install jaxls仓库地址
git clone pyroki仓库地址
cd pyroki
pip install -e .
cd ../..

核心依赖

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1

2. 重建环境（vm1reocn）配置

cd third_party/
git clone --recursive megasam-package仓库地址
cd megasam-package
conda env create -f environment.yml
conda activate vm1recon

关键组件安装

xformers特定版本

wget xformers下载链接
conda install xformers-0.0.22.post7-py310_cu11.8.0_pyt2.0.1.tar.bz2

NKSR网格化

conda install pytorch-lightning=1.9.4 tensorboard pybind11
pip install nksr -f nksr下载链接

GeoCalib重力校准

git clone GeoCalib仓库地址
cd GeoCalib
pip install -e .
cd ../..

环境使用指南

根据任务类型选择正确的环境：

# 人体检测、姿态估计和动作重定向
conda activate vm1rs

# 场景重建和网格化处理
conda activate vm1reocn

常见问题解决方案

编译错误处理

遇到g++-11相关错误时：

sudo apt update
sudo apt install g++-11
export CC=/usr/bin/gcc-11
export CXX=/usr/bin/g++-11

内存优化建议

MegaSam处理300帧约需24GB显存
Align3r处理150帧约需80GB显存
可通过--end-frame和--stride参数减少处理帧数

CUDA版本冲突

确认主环境使用CUDA 12.4+
重建环境必须使用CUDA 11.8
通过nvcc --version检查当前CUDA版本

技术深度解析

VideoMimic系统的双环境设计反映了当前AI领域的一个常见挑战：不同前沿模型对底层框架的版本依赖往往存在冲突。主环境采用较新的CUDA 12.4和Python 3.12以获得最佳性能，而重建环境则为了兼容MegaSam等特定组件保留了CUDA 11.8的支持。

系统整合了多种先进技术：

Grounded-SAM-2提供精确的物体分割
ViTPose实现高精度2D姿态估计
VIMO构建3D人体网格
MegaSam负责场景重建
NKSR实现高效网格化

这种模块化设计使得系统可以灵活应对不同的应用场景，同时也为未来组件的升级替换提供了便利。

VideoMimic

项目地址：https://gitcode.com/gh_mirrors/vi/VideoMimic

登录后查看全文