如何用 Florence2 在 ComfyUI 中实现多模态视觉任务：从安装到高级用法的完整指南

2026-02-05 04:18:44作者：房伟宁

Florence2 in ComfyUI 是一个强大的视觉语言模型插件，它让用户能够通过简单的文本提示，在 ComfyUI 中轻松实现图像描述、目标检测、分割等多种视觉任务。这款插件基于微软 Florence-2 模型开发，支持文档视觉问答（DocVQA）等高级功能，是 AI 绘图和视觉处理爱好者的必备工具。

📋 核心功能：Florence2 能为你做什么？

Florence2 作为一款先进的视觉基础模型，通过提示词驱动的方式，可处理以下任务：

图像 captioning：自动生成图像描述文本
目标检测：识别图像中的物体并标记边界框
语义分割：精确分割图像中的不同区域
文档视觉问答（DocVQA）：从扫描文档、表单、收据中提取信息（例如："这张发票的总金额是多少？"）

🌟 Florence2 模型在 54 亿标注数据上训练，支持零样本和微调两种模式，兼顾灵活性与专业性。

🚀 快速安装：3 步上手 Florence2 插件

1️⃣ 克隆仓库到 ComfyUI 节点目录

git clone https://gitcode.com/gh_mirrors/co/ComfyUI-Florence2 ComfyUI/custom_nodes/ComfyUI-Florence2

2️⃣ 安装依赖包

进入插件目录并安装 requirements.txt：

cd ComfyUI/custom_nodes/ComfyUI-Florence2
pip install -r requirements.txt

⚠️ 注意：需确保 transformers 版本 ≥ 4.38.0

3️⃣ 启动 ComfyUI

重启 ComfyUI 后，Florence2 相关节点会自动加载到节点面板中。

📊 支持的模型：从官方版本到社区微调模型

Florence2 插件支持多种预训练模型，包括官方版本和社区优化版本：

官方模型

基础版：microsoft/Florence-2-base（轻量级，适合快速测试）
增强版：microsoft/Florence-2-large（更高精度，支持复杂任务）
文档问答专用：HuggingFaceM4/Florence-2-DocVQA

社区热门微调模型

提示词生成：MiaoshouAI/Florence-2-base-PromptGen-v1.5
SD3 专用：gokaygokay/Florence-2-SD3-Captioner（图像转提示词）
Flux 适配：gokaygokay/Florence-2-Flux-Large（优化 Flux 模型兼容性）

💡 模型可通过 DownloadAndLoadFlorence2Model 节点自动下载到 ComfyUI/models/LLM 目录

📄 文档视觉问答（DocVQA）使用教程

基本流程

将文档图像（如收据、表单）加载到 ComfyUI 画布
添加 Florence2 DocVQA 节点并连接图像
输入问题（例如："这张收据的日期是什么时候？"）
运行流程获取模型回答

实用问题示例

"发票编号是多少？"
"客户姓名是什么？"
"服务项目有哪些？"

📌 提示：图像清晰度越高，问答准确率越好。复杂问题建议拆分为多个简单问题。

🛠️ 核心文件解析

配置文件：configuration_florence2.py

定义模型架构参数，包括输入尺寸、注意力机制配置等核心设置。

节点定义：nodes.py

实现 ComfyUI 可视化节点，包括：

Florence2Loader：模型加载节点
Florence2Caption：图像描述节点
Florence2DocVQA：文档问答节点

模型实现：modeling_florence2.py

包含 Florence2 模型的核心推理代码，处理视觉输入与文本提示的融合计算。

❓ 常见问题解决

Q：模型下载失败怎么办？

A：可手动从 HuggingFace 下载模型文件，解压到 ComfyUI/models/LLM 目录

Q：DocVQA 回答不准确？

A：尝试提高图像分辨率，或使用 Florence-2-large 版本模型

Q：支持中文提示词吗？

A：部分社区微调模型（如 MiaoshouAI 版本）优化了中文支持

📝 使用许可

本项目基于 MIT 许可证开源，详细条款见 LICENSE 文件。

ComfyUI-Florence2

Inference Microsoft Florence2 VLM

项目地址：https://gitcode.com/gh_mirrors/co/ComfyUI-Florence2

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

433

395

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

C++

1.01 K

atomcode

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.68 K

989