在PandasAI中使用Hugging Face模型的技术实践

2025-05-11 05:10:49作者：薛曦旖Francesca

PandasAI作为一个增强型数据分析工具，通过与大型语言模型(LLM)的集成，为用户提供了自然语言处理数据的能力。本文将详细介绍如何在PandasAI框架中正确集成和使用Hugging Face的文本生成模型。

环境准备与安装

首先需要确保Python环境已正确配置。推荐使用Python 3.7及以上版本。安装PandasAI时，需要特别指定Hugging Face相关的依赖项：

pip install pandasai[huggingface]
pip install text_generation

模型服务部署

使用Hugging Face模型前，需要部署一个文本生成推理服务。这可以通过Hugging Face提供的TGI(Text Generation Inference)工具实现。部署完成后，服务通常会运行在本地的8080端口。

核心组件介绍

PandasAI中与Hugging Face集成主要涉及三个关键组件：

HuggingFaceTextGen：封装了与Hugging Face推理服务的交互逻辑
BasePrompt：作为所有提示模板的基类，定义了提示语的基本结构
PipelineContext：维护数据处理流程中的上下文信息

完整实现示例

以下是一个完整的实现示例，展示了如何正确配置和使用这些组件：

from pandasai.llm import HuggingFaceTextGen
from pandasai.prompts.base import BasePrompt
from pandasai.pipelines.pipeline_context import PipelineContext
import pandas as pd

# 准备示例数据
data = {
    "country": ["美国", "英国", "法国", "德国", "意大利", "西班牙", "加拿大", "澳大利亚", "日本", "韩国"],
    "gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 
            1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
    "happiness": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
}
df = pd.DataFrame(data)

# 初始化HuggingFace文本生成器
llm = HuggingFaceTextGen(
    inference_server_url="http://127.0.0.1:8080",
    max_new_tokens=512,
    temperature=0.7
)

# 自定义提示模板
class GDPQueryPrompt(BasePrompt):
    def to_string(self):
        return "计算北美国家的GDP总和"

# 创建处理上下文
context = PipelineContext(
    dfs=[df],
    config={"enable_cache": False}  # 根据需求配置缓存
)

# 执行查询
response = llm.call(GDPQueryPrompt(), context=context)
print(response)