CogVideo项目中文输入问题的技术分析与解决方案

2025-05-21 21:12:35作者：郁楠烈Hubert

问题背景

在使用THUDM/CogVideo项目进行视频生成时，许多开发者遇到了一个常见问题：当输入提示词(prompt)为中文时，生成的视频内容与预期不符，呈现出随机性；而使用英文提示词时，则能正常生成符合预期的视频内容。这一现象引起了开发者社区的广泛关注。

技术原理分析

CogVideo作为基于大规模预训练的视频生成模型，其核心架构设计主要针对英文输入进行了优化。模型在训练过程中使用的语料库主要是英文文本，因此对英文提示词的理解和转换能力更强。当输入非英文文本时，模型无法直接有效地解析语义信息，导致生成结果出现偏差。

问题重现与验证

通过对比实验可以清晰地观察到这一现象：

中文输入场景：

{
    "prompt": "一个时髦的女人走在东京的街道上...",
    "converted_prompt": "",
    "num_inference_steps": 50,
    "guidance_scale": 6.0
}

这种情况下生成的视频内容往往与提示词无关，呈现随机性。

英文输入场景：

{
    "prompt": "A stylish woman walks down a Tokyo street...",
    "converted_prompt": " ",
    "num_inference_steps": 50,
    "guidance_scale": 6.0
}

这种情况下模型能够正确理解提示词并生成符合描述的视频内容。

解决方案

针对中文输入问题，项目团队提供了明确的解决方案：

提示词转换机制：原始代码中包含的convert_prompt函数正是为了解决这一问题而设计。该函数通过大型语言模型将中文提示词转换为英文，然后再输入给视频生成模型。
实现要点：

必须保留并正确使用convert_prompt函数
转换后的英文提示词应作为主要输入
原始中文提示词仅用于显示和记录

正确实现示例：

with st.spinner("Refining prompts..."):
    converted_prompt = convert_prompt(prompt=prompt, retry_times=1)
    if converted_prompt is None:
        st.error("Failed to Refining the prompt, Using origin one.")