Jetson-Containers项目离线运行Llava 2.0的解决方案

2025-06-27 09:42:23作者：庞眉杨Will

在Jetson Orin设备上运行Live Llava 2.0 - VILA + Multimodal NanoDB时，许多开发者遇到了必须联网才能正常工作的问题。本文将深入分析这一技术挑战，并提供完整的离线解决方案。

问题背景

默认配置下，Jetson-Containers项目会从HuggingFace Hub下载所需的AI模型。虽然模型文件会被缓存到本地/data/models目录，但系统仍会尝试连接HuggingFace服务器进行版本校验，导致在没有网络连接的情况下无法正常运行。

技术原理分析

系统依赖多个关键组件：

CLIP视觉编码器模型
Llama语言模型
NanoDB多模态数据库

这些组件在初始化时都会检查HuggingFace Hub上的最新版本信息，即使本地已有缓存模型。这种设计确保了开发者总能获取最新模型，但不利于离线环境部署。

完整解决方案

1. 确认模型缓存位置

首先验证模型是否已正确缓存到本地：

/data/models/huggingface/
/data/models/clip/

2. 修改CLIP模型加载方式

找到video_query.py文件中的模型加载代码，将HuggingFace模型标识替换为本地路径：

# 原代码
model='ViT-L/14@336px'

# 修改为
model='/data/models/clip/ViT-L/14@336px'

3. 修改语言模型加载方式

运行容器时直接指定本地模型路径：

jetson-containers run $(autotag nano_llm) \
  python3 -m nano_llm.chat --api=hf \
    --model /data/models/princeton-nlp/Sheared-LLaMA-2.7B-ShareGPT

4. 完整离线启动命令示例

结合上述修改，完整的离线启动命令应为：

jetson-containers run $(autotag nano_llm) \
  python3 -m nano_llm.agents.video_query \
    --api=mlc \
    --model /data/models/Efficient-Large-Model/Llama-3-VILA1.5-8B \
    --max-context-len 256 \
    --max-new-tokens 32 \
    --video-input /dev/video0 \
    --video-output webrtc://@:8554/output \
    --nanodb /data/nanodb/coco/2017