PandasAI项目中的代码生成问题分析与解决方案

2025-05-11 05:51:03作者：申梦珏Efrain

问题背景

在PandasAI项目中，用户报告了一个关于代码生成的问题：当使用该工具生成Python代码时，系统会在生成的代码前自动添加"Python"或"py"字样，导致代码无法直接执行。这个问题尤其影响到了数据分析流程的自动化，特别是当用户尝试生成商品趋势分析图表时。

问题详细分析

该问题主要出现在代码生成后的处理阶段。当系统生成类似以下数据分析代码时：

def get_all_commodities_trend():
    df = dfs[14]
    filtered_df = df[df['Sourcemonth'].notna()]
    filtered_df['All commodities'] = pd.to_numeric(filtered_df['All commodities'])
    try:
        plt.figure(figsize=(10, 6))
        plt.plot(filtered_df['Sourcemonth'], filtered_df['All commodities'])
        plt.xlabel('Month')
        plt.ylabel('Value')
        plt.title("Trend for 'All commodities'")
        plt.savefig('/path/to/save/chart.png')
    except Exception as e:
        print(f'An error occurred: {e}')

系统会在实际输出时在代码前添加"Python"字样，变成：

Python
def get_all_commodities_trend():
    [...]

这种前缀添加导致代码无法直接执行，破坏了自动化流程的完整性。

技术解决方案

PandasAI项目团队已经内置了解决这一问题的机制。在LLM类的实现中，专门设计了_polish_code方法来处理这类代码格式问题。该方法的主要功能包括：

移除代码字符串开头的"python"或"py"标记
去除代码周围可能存在的反引号(`)
清理代码前后的空白字符

方法实现的核心逻辑如下：

def _polish_code(self, code: str) -> str:
    if re.match(r"^(python|py)", code):
        code = re.sub(r"^(python|py)", "", code)
    if re.match(r"^`.*`$", code):
        code = re.sub(r"^`(.*)`$", r"\1", code)
    return code.strip()

实际应用建议

对于使用PandasAI生成代码的用户，建议采取以下最佳实践：

代码后处理：在获取生成的代码后，主动调用_polish_code方法清理代码格式
错误处理：在代码执行前添加验证步骤，确保代码格式正确
日志记录：记录原始生成的代码和处理后的代码，便于调试

一个完整的实现示例：

from pandasai.llm import LLM

# 初始化LLM实例
llm = LLM()

# 获取生成的代码
generated_code = llm.generate_code("分析商品趋势")

# 清理代码格式
clean_code = llm._polish_code(generated_code)

# 执行清理后的代码
exec(clean_code)