完整指南：如何快速安装配置Thinking in Space视觉空间智能评估框架

2026-01-30 04:24:30作者：段琳惟

Thinking in Space (VSI-Bench) 是一个专门用于评估多模态大语言模型在视觉空间智能方面能力的开源基准测试框架。该项目由纽约大学、耶鲁大学和斯坦福大学的研究团队共同开发，旨在探索AI模型如何理解和记忆空间环境。

📋 项目概览与核心功能

VSI-Bench 基准测试包含超过5,000个问答对，基于288个第一人称视角视频，数据来源于公开的室内3D场景重建数据集ScanNet、ScanNet++和ARKitScenes。

项目主要评估三大类空间认知任务：

配置型任务 - 空间布局和物体关系理解
测量估计任务 - 距离和数量估算
时空任务 - 动态空间场景分析

🚀 快速安装步骤

环境准备

首先创建并激活conda环境：

conda create --name vsibench python=3.10
conda activate vsibench

克隆项目仓库

git clone https://gitcode.com/gh_mirrors/th/thinking-in-space.git
cd thinking-in-space

初始化子模块

git submodule update --init --recursive

安装依赖包

cd transformers && pip install -e . && cd ..
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

⚙️ 配置与数据准备

获取基准测试数据

VSI-Bench数据集托管在HuggingFace平台，可以通过以下代码直接加载：

from datasets import load_dataset
vsi_bench = load_dataset("nyu-visionx/VSI-Bench")
print(dataset)

元数据配置

项目的最新元信息已发布在 /data/meta_info/ 目录下，包含：

arkitscenes_meta_info_val.json
scannet_meta_info_val.json
scannetpp_meta_info_val.json

🎯 一键运行评估

全功能评估脚本

项目提供了便捷的一键评估脚本：

bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

支持的模型类型

VSI-Bench支持评估多种多模态大语言模型：

商业模型：Gemini-1.5、GPT-4o
开源模型：InternVL2、ViLA、LongViLA、LLaVA系列等

🔧 高级配置选项

自定义评估参数

您可以根据需求调整评估参数：

--model：指定要评估的模型
--num_processes：设置并行进程数
--benchmark：选择基准测试类型

评估指标说明

项目采用两种主要评估指标：

准确率：用于多项选择题任务
平均相对准确率：用于数值答案任务

💡 使用技巧与最佳实践

性能优化建议

GPU内存管理：根据模型大小合理设置batch size
并行处理：充分利用多进程加速评估
缓存机制：重复评估时可复用已处理结果

🛠️ 故障排除

常见问题解决

依赖冲突：建议使用全新的conda环境
子模块初始化失败：检查网络连接后重试

评估结果差异：开源模型结果可能存在轻微波动

📊 结果分析与解读

评估完成后，结果将保存在指定目录中。您可以：

比较不同模型在空间认知任务上的表现
分析模型在特定任务类型上的优势与局限
为后续模型优化提供数据支持

通过本指南，您已经成功安装并配置了Thinking in Space评估框架。现在可以开始评估各种多模态大语言模型在视觉空间智能方面的能力，为AI空间认知研究贡献力量！🚀

提示：建议定期关注项目更新，获取最新的基准测试数据和评估方法改进。

thinking-in-space

Official repo and evaluation implementation of VSI-Bench

项目地址：https://gitcode.com/gh_mirrors/th/thinking-in-space

登录后查看全文