CogAgent建筑设计工具：CAD界面尺寸标注的AI辅助实现

2026-02-05 04:09:37作者：庞眉杨Will

建筑设计师在使用CAD软件进行图纸绘制时，常面临尺寸标注耗时且易出错的问题。传统人工标注不仅需要反复核对坐标与数值，还需频繁切换工具栏功能，导致设计效率低下。CogAgent作为基于视觉语言模型（VLM）的GUI智能体，通过图像识别与自动化操作，可实时解析CAD界面元素，自动完成尺寸标注任务，将设计师从机械劳动中解放出来。本文将以AutoCAD为例，详细说明如何利用CogAgent实现建筑图纸的AI辅助尺寸标注。

技术原理与工作流程

CogAgent的核心能力在于将屏幕截图转化为可执行操作指令。其工作流程分为三步：首先通过高分辨率图像识别（支持1120×1120像素）解析CAD界面元素，如工具栏按钮、绘图区域的线条与几何图形；接着根据用户任务（如“标注墙体厚度”）生成操作序列；最后通过鼠标点击、键盘输入等动作完成标注。

关键技术模块：

视觉解析：基于GLM-4V-9B基座模型，精确识别CAD中的尺寸线、标注样式等元素，坐标定位误差≤2像素。
动作空间：支持鼠标点击（CLICK）、文本输入（TYPE）、快捷键操作（KEY_PRESS）等12种操作类型，完整覆盖CAD交互需求。
安全机制：通过<<敏感操作>>标签标记可能修改图纸的关键步骤（如删除标注），需用户二次确认。

环境部署与权限配置

硬件与软件要求

CogAgent支持Windows/macOS系统，推荐配置如下：

GPU：NVIDIA A100（推理显存≥29GB）或INT8量化（显存≥15GB）
CAD软件：AutoCAD 2023+（需开启“经典界面”模式）
依赖库：Python 3.10+及requirements.txt中指定的pyautogui（自动化操作）、gradio（可视化界面）等工具包。

权限配置步骤

为确保CogAgent能正常截取CAD界面并模拟操作，需开启系统权限：

屏幕录制权限：在“系统设置-安全性与隐私”中允许终端/IDE访问屏幕。
自动化控制权限：在“辅助功能”中启用对CAD进程的控制权限。

尺寸标注实战步骤

1. 启动与连接服务

服务端部署：在GPU服务器运行以下命令启动CogAgent模型服务：

python inference/web_demo.py --model_dir THUDM/cogagent-9b-20241220 --platform "WIN" --output_dir ./results

客户端连接：在CAD运行的工作站启动控制界面：
```
python app/client.py --api_key EMPTY --base_url http://127.0.0.1:7870/v1
```
成功连接后，屏幕右下角将显示CogAgent控制图标。

2. 标注流程示例（以墙体轴线标注为例）

步骤1：激活标注工具

CogAgent通过识别CAD顶部菜单栏，自动点击“标注”→“线性”工具：

# 模型生成的操作指令示例
CLICK(box=[[420,120,480,140]], element_type='菜单项', element_info='标注')
CLICK(box=[[450,200,510,220]], element_type='子菜单项', element_info='线性')

步骤2：捕捉轴线端点

模型通过OCR识别图纸中的轴线编号（如A轴、1轴），结合图像坐标计算端点位置：

# 捕捉第一个端点
HOVER(box=[[150,300,170,320]], element_type='轴线端点', element_info='A轴起点')
CLICK(box=[[150,300,170,320]], element_type='轴线端点', element_info='A轴起点')

# 捕捉第二个端点
HOVER(box=[[450,300,470,320]], element_type='轴线端点', element_info='B轴起点')
CLICK(box=[[450,300,470,320]], element_type='轴线端点', element_info='B轴起点')

步骤3：生成标注文本

自动输入标注值（如3600mm）并调整文字位置：

TYPE(box=[[300,280,320,300]], text='3600', element_type='标注文本框', element_info='尺寸值输入')
KEY_PRESS(key='Enter')  # 确认标注

3. 批量标注与错误修正

对于多段连续标注，CogAgent支持通过SCROLL_DOWN指令滚动图纸区域，并使用QUOTE_TEXT提取已有标注的数值格式（如小数位数），确保风格统一。若识别到重叠标注，模型将自动执行DELETE操作并重新生成。

高级功能与扩展

1. 自定义标注规则

通过修改Action_space.md中的TYPE操作参数，可定义标注样式：

# 示例：设置标注精度为小数点后两位
TYPE(box=[[600,120,650,140]], text='DIMDEC 2', element_type='命令行', element_info='CAD命令输入')

2. 跨软件协同

CogAgent可联动Excel进行数据核对，例如将标注值与材料表中的构件尺寸比对，通过LLM指令调用GPT-4计算偏差率：

QUOTE_CLIPBOARD(output='__CogName_材料表数据__')  # 复制Excel数据
LLM(prompt='计算标注值与材料表的偏差率：__CogName_材料表数据__', output='__CogName_偏差结果__')

注意事项与安全规范

实时交互限制：模型操作期间需保持CAD窗口置顶，避免遮挡导致坐标偏移。
敏感操作确认：删除、移动等高危操作会触发<<敏感操作>>提示，需用户在控制界面点击“确认”。
性能优化：复杂图纸建议分区域标注，每区域截图分辨率控制在800×600以内，减少模型推理耗时。

通过CogAgent的AI辅助，建筑设计师可将尺寸标注效率提升60%以上，同时降低人为误差。后续版本将支持三维模型标注与BIM数据联动，进一步拓展在建筑工程全流程中的应用场景。如需获取更多操作示例，可参考app/README.md中的自动化任务脚本。

CogAgent

An open-sourced end-to-end VLM-based GUI Agent

项目地址：https://gitcode.com/GitHub_Trending/co/CogAgent

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Dora SSR 是一款跨平台的游戏引擎，提供前沿或是具有探索性的游戏开发功能。它内置了Web IDE，提供了可以轻轻松松通过浏览器访问的快捷游戏开发环境，特别适合于在新兴市场如国产游戏掌机和其它移动电子设备上直接进行游戏开发和编程学习。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.36 K

772