FunASR项目中的CharTokenizer对象属性缺失问题解析

2025-05-24 05:27:59作者：廉皓灿Ida

在使用FunASR语音识别框架时，开发者可能会遇到一个常见的错误："CharTokenizer对象没有token_list属性"。这个问题通常出现在尝试构建语音识别管道时，特别是在加载本地模型文件的情况下。

问题现象

当开发者尝试使用FunASR的pipeline功能加载本地模型时，系统会抛出AttributeError异常，提示CharTokenizer类缺少token_list属性。错误信息显示，在构建AutoModel时，代码尝试访问tokenizer.token_list属性失败。

问题根源

经过分析，这个问题主要有两个潜在原因：

模型版本过旧：开发者可能下载了早期版本的模型文件，这些文件与当前FunASR框架的接口不兼容。FunASR在不断更新迭代，新版本框架需要配套使用新版本的模型文件。
模型加载方式不当：直接通过git clone下载模型文件后，如果未指定正确的模型版本(revision)，框架可能无法正确处理模型配置。

解决方案

针对这个问题，推荐以下解决方案：

重新下载最新模型：即使之前已经下载过模型文件，也需要重新获取最新版本。模型仓库会不断更新，确保使用与当前FunASR框架兼容的版本。
使用标准模型加载方式：建议通过ModelScope的标准接口加载模型，而非直接使用本地文件路径。这种方式会自动处理模型版本和依赖关系。
明确指定模型版本：在pipeline构建时，显式指定model_revision参数，确保加载正确版本的模型。

最佳实践示例

以下是经过验证的正确使用方式：

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
    model_revision="v2.0.4",
    vad_model='speech_fsmn_vad_zh-cn-16k-common-pytorch',
    vad_model_revision="v2.0.4",
    punc_model='punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
    punc_model_revision="v2.0.4",
)