PandasAI中高阶函数技能检测问题的分析与解决

2025-05-11 12:15:03作者：咎竹峻Karen

问题背景

在PandasAI项目的代码清理模块中，存在一个关于技能检测的重要缺陷。当开发者使用技能(skill)作为参数传递给高阶函数(如DataFrame的apply方法)时，系统无法正确识别这些技能的使用情况。这个问题直接影响了技能管理的准确性，可能导致技能使用统计不完整，进而影响后续的代码优化和分析。

技术原理

PandasAI中的技能系统允许开发者通过装饰器定义可复用的数据处理函数。这些技能可以被其他代码调用，系统通过静态代码分析来跟踪技能的使用情况。当前的实现基于Python的抽象语法树(AST)分析，遍历代码结构来识别技能调用。

问题分析

原始实现中的find_function_calls方法存在以下局限性：

仅检测直接函数调用，忽略作为参数传递的函数
无法识别高阶函数中使用的技能
对嵌套函数调用的支持不完整

以典型用例为例：

df["salaries"].apply(calculate_salary_percentiles)

其中calculate_salary_percentiles是一个已注册的技能，但系统无法检测到它的使用。

解决方案

通过扩展AST遍历逻辑，我们实现了更全面的技能检测：

在检测函数调用节点时，同时检查其参数
对参数中的函数调用进行递归检测
支持识别作为参数传递的技能名称

核心改进代码如下：

def find_function_calls(self, node: ast.AST, context: CodeExecutionContext):
    if isinstance(node, ast.Call):
        # 原有直接调用检测逻辑...
        
        # 新增参数检测逻辑
        for arg in node.args:
            if isinstance(arg, ast.Name) and context.skills_manager.skill_exists(arg.id):
                context.skills_manager.add_used_skill(arg.id)
            elif isinstance(arg, ast.Call):
                self.find_function_calls(arg, context)
    
    # 继续遍历子节点...