ComfyUI字幕增强插件完整安装与配置终极指南

2026-02-07 04:39:56作者：郦嵘贵Just

您是否在为ComfyUI寻找一款功能强大的字幕生成插件？JoyCaptionTwo正是您需要的解决方案！这款插件基于先进的Llama大语言模型和CLIP跨模态技术，能够为您的图像生成精准、多样的文本描述。

快速开始：三步完成基础安装

第一步：获取插件文件

将插件克隆到您的ComfyUI自定义节点目录中：

cd custom_nodes
git clone https://gitcode.com/gh_mirrors/co/ComfyUI_SLK_joy_caption_two.git

第二步：安装必备依赖

进入插件目录并安装所有必需依赖包：

pip install -r ComfyUI_SLK_joy_caption_two/requirements.txt

第三步：重启并验证

完成安装后重启ComfyUI服务，您将在节点列表中找到全新的字幕处理功能。

核心模型配置详解

Llama3.1-8B模型部署

将模型文件复制到 models/LLM/Meta-Llama-3.1-8B-Instruct-bnb-4bit 目录
确保包含 model.safetensors 权重文件（约5.56GB）
配置文件和分词器文件需完整保留

CLIP模型安装

复制到 models/clip/siglip-so400m-patch14-384 路径
核心文件包括 model.safetensors（3.43GB）
确保分词器和配置文件齐全

插件核心功能与工作流

插件核心模型结构

text_model 子目录存放文本编码器
clip_model.pt 文件提供图像-文本转换能力
image_adapter.pt 实现图像特征适配
配置文件 config.yaml 管理所有参数

基础工作流配置

单图字幕生成流程

加载图像到JoyCaptionTwo节点
连接Llama语言模型进行文本生成
输出描述性字幕内容

高级批量处理功能

批量字幕生成优势

支持同时处理多张图片
每个实例可独立配置参数
灵活设置提示词类型和长度
高效输出结构化文本内容

批量配置要点

设置图片文件夹输入路径
配置输出文本保存位置
调整提示词类型和显示长度
使用Custom-Scripts节点管理输出

多模型协同工作流

跨模态协同处理

JoyCaptionTwo节点与ControlNet结合
双CLIP加载器增强特征提取
实现图像风格化与字幕生成的完美融合

不同场景工作流选择

三种工作流模式

基础模式：单张图片快速字幕生成
高级模式：多参数自定义配置
批量模式- 文件夹级别批量处理

常见问题与解决方案

模型加载失败 检查模型文件路径是否正确，确保所有必需文件完整

显存不足提示 推荐使用bnb-4bit量化版本，显著降低显存占用

输出文本质量不佳 调整提示词类型和长度参数，尝试不同配置组合

优化建议与最佳实践

性能优化

8G显存环境优先选择量化模型
批量处理时合理设置并发数量
根据图片复杂度调整处理参数

使用技巧

从简单配置开始测试
逐步调整参数获得理想效果
利用批量功能提升工作效率

通过本指南的详细步骤，您已经掌握了ComfyUI字幕增强插件的完整安装与配置方法。现在就可以开始使用这个强大的工具，为您的图像创作添加精准的文本描述！

ComfyUI_SLK_joy_caption_two

ComfyUI Node

项目地址：https://gitcode.com/gh_mirrors/co/ComfyUI_SLK_joy_caption_two

登录后查看全文