Chinese-CLIP 项目亮点解析

2025-06-08 23:10:09作者：牧宁李

1、项目的基础介绍 Chinese-CLIP 是一个基于CLIP模型的中文版本，使用大规模中文数据进行训练（约2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等。该项目代码基于 open_clip project 构建，并针对中文领域数据以及在中文数据上实现更好的效果做了优化。

2、项目代码目录及介绍

run_scripts: 包含了finetune和评测的脚本，例如 muge_finetune_vit-b-16_rbt-base.sh 和 flickr30k_finetune_vit-b-16_rbt-base.sh。
src: 项目的核心代码，包括 clip、eval、preprocess、training 等目录。

3、项目亮点功能拆解

中文跨模态检索：支持中文文本到图像、图像到文本的检索。
预训练模型：提供了ViT-B规模的预训练中文CLIP权重下载。
数据预处理：支持将训练和评测使用的图文数据集组织成特定的格式，并进行LMDB数据库文件的序列化。

4、项目主要技术亮点拆解

视觉和文本模型选择：支持多种视觉和文本模型选择，包括 ViT-B-32、ViT-B-16、ViT-L-14 和 RoBERTa-wwm-ext-base-chinese、RoBERTa-wwm-ext-large-chinese。
训练配置：支持分布式训练，包括WORKER_CNT（训练的机器个数）和GPUS_PER_NODE（每个机器上的GPU个数）等配置。
数据增强：支持使用 AutoAugment 对图片进行数据增强。
权重读取：支持从预训练ckpt或用户自己finetune的ckpt读取权重。

5、与同类项目对比的亮点

中文版本：针对中文领域进行优化，使用大规模中文数据进行训练。
代码结构和文档：代码结构清晰，文档详细，方便用户使用和理解。
模型效果：在MUGE Retrieval、Flickr30K-CN和COCO-CN等数据集上取得了良好的实验结果。

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

deepin linux kernel

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

cann-learning-hub

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

昇腾LLM分布式训练框架