Google Generative AI Python SDK中response_schema参数的行为分析

2025-07-03 08:59:43作者：咎竹峻Karen

问题背景

在Google Generative AI Python SDK的使用过程中，开发者发现response_schema参数的行为存在一些特殊情况。具体表现为：当使用gemini-1.5-pro系列模型时，response_schema参数只有在系统指令(system_instruction)中也详细说明了响应模式的情况下才会被遵循。

技术细节分析

预期行为

根据SDK的设计初衷，response_schema参数应该独立工作，开发者期望它能：

定义响应数据的JSON结构
确保模型输出符合预定义的模式
无需在系统指令中重复说明模式细节

实际观察到的行为

当前实现中，系统指令和response_schema之间存在依赖关系：

当系统指令仅简单要求"格式化为JSON"时，response_schema不会被完全遵循
只有在系统指令中详细说明JSON结构时，response_schema才会生效
这种实现可能导致重复的模式定义，浪费token资源

代码示例解析

以下是展示该行为的典型代码示例：

# 基本配置
model = genai.GenerativeModel(
    model_name="gemini-1.5-pro-latest",
    system_instruction="翻译为德语并格式化为JSON"
)

# 详细配置
detailed_model = genai.GenerativeModel(
    model_name="gemini-1.5-pro-latest",
    system_instruction="翻译为德语并格式化为JSON，必须包含input和output两个字段"
)

# 共享的生成配置
generation_config = GenerationConfig(
    response_mime_type="application/json",
    response_schema={
        "type": "object",
        "properties": {
            "input": {"type": "string"},
            "output": {"type": "string"}
        },
        "required": ["input", "output"]
    }
)

# 测试基本配置 - 可能不遵循schema
basic_response = model.generate_content("Hello", generation_config=generation_config)

# 测试详细配置 - 会遵循schema
detailed_response = detailed_model.generate_content("Hello", generation_config=generation_config)