PandasAI项目中Prompt生成阶段未使用last_code_generated的问题分析

2025-05-11 03:59:37作者：庞队千Virginia

Chat with your database (SQL, CSV, pandas, polars, mongodb, noSQL, etc). PandasAI makes data analysis conversational using LLMs (GPT 3.5 / 4, Anthropic, VertexAI) and RAG.

项目地址：https://gitcode.com/gh_mirrors/pan/pandas-ai

在PandasAI项目的代码生成流程中，存在一个值得关注的技术问题：在Prompt生成阶段，系统未能有效利用上一次生成的代码(last_code_generated)来优化后续的交互体验。这个问题会影响用户在连续对话中进行代码微调时的体验。

问题背景

PandasAI是一个基于Python的数据分析工具，它允许用户通过自然语言与数据进行交互。在代码生成流程中，系统会经历多个阶段，包括Prompt生成、代码生成和执行等。其中，Prompt生成阶段负责构建发送给大语言模型的提示词。

技术细节分析

在当前的实现中，Prompt生成阶段虽然设计了接收last_code_generated参数的接口，但在实际流程中，这个参数始终为None。这主要是因为：

在GenerateChatPipeline的run_generate_code方法中，虽然生成了代码，但没有将结果存储到上下文中
Prompt生成阶段从上下文中获取last_code_generated时，无法获取到有效值

影响范围

这个问题会导致以下用户体验问题：

用户在连续对话中无法基于前一次生成的代码进行微调
每次修改请求都需要从头开始生成完整代码
增加了大语言模型的工作负担
降低了交互效率

解决方案建议

要解决这个问题，可以考虑以下技术方案：

完善上下文管理：在代码生成后，将生成的代码存储到PipelineContext中
优化Prompt生成：修改Prompt生成逻辑，使其能够利用上下文中的last_code_generated
增强回调机制：利用现有的Callbacks类来管理代码生成的生命周期

实现示例

以下是改进后的关键代码逻辑：

# 在代码生成后存储结果
self.context.add("last_code_generated", output.get("value"))

# 修改Prompt生成逻辑
GeneratePythonCodePrompt(
    context=context,
    last_code_generated=context.get("last_code_generated"),
    viz_lib=viz_lib,
    output_type=output_type,
)