AWS SDK for JavaScript v3 中 Bedrock Agent 流式响应权限问题解析

2025-06-25 04:36:07作者：齐冠琰

引言

在使用 AWS SDK for JavaScript v3 调用 Bedrock Agent 服务时，开发者可能会遇到流式响应功能的权限问题。本文将深入分析这一问题的成因、解决方案以及相关技术细节。

问题现象

当开发者尝试启用 Bedrock Agent 的流式响应功能时，即在调用 InvokeAgent API 时设置 streamFinalResponse: true，系统会返回 AccessDeniedException 错误，提示"Access denied when calling Bedrock"。而将 streamFinalResponse 设为 false 时，调用则可以正常执行。

根本原因分析

经过技术团队深入调查，发现该问题的根本原因是权限配置不足。流式响应功能需要额外的 IAM 权限才能正常工作。具体来说，除了基本的 bedrock:InvokeModel 权限外，还需要添加 bedrock:InvokeModelWithResponseStream 权限。

解决方案

要解决此问题，需要修改执行角色的 IAM 策略，添加流式响应所需的权限。以下是完整的权限策略示例：

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "bedrock:InvokeModel",
                "bedrock:InvokeModelWithResponseStream"
            ],
            "Resource": [
                "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-5-sonnet-20240620-v1:0"
            ]
        }
    ]
}

流式响应实现细节

成功配置权限后，可以使用以下代码实现流式响应处理：

import { BedrockAgentRuntimeClient, InvokeAgentCommand } from "@aws-sdk/client-bedrock-agent-runtime";

const client = new BedrockAgentRuntimeClient({ 
  region: "us-east-1",
});

async function invokeAgentWithStreaming() {
  const command = new InvokeAgentCommand({
    agentId: "YOUR_AGENT_ID",
    agentAliasId: "YOUR_ALIAS_ID",
    inputText: "your query here",
    enableTrace: true,
    sessionId: "unique-session-id",
    streamingConfigurations: {
      streamFinalResponse: true,
      applyGuardrailInterval: 1000
    }
  });

  try {
    const response = await client.send(command);
    
    for await (const chunk of response.completion) {
      if (chunk.chunk?.bytes) {
        const textDecoder = new TextDecoder();
        const text = textDecoder.decode(chunk.chunk.bytes);
        console.log("Received chunk:", text);
      }
    }
  } catch (error) {
    console.error("Error in streaming:", error);
    throw error;
  }
}

流式响应的限制条件

需要注意的是，Bedrock Agent 的流式响应功能存在以下限制：

仅当启用编排提示(Orchestration prompt)时支持流式响应
不支持以下场景：
- 预处理(Pre-processing)步骤
- 后处理(Post-processing)步骤
- 配置了知识库(Knowledge base)的代理
- 未启用用户输入(User Input)的情况

模型选择对响应的影响

不同模型对流式响应的处理方式存在显著差异：

Anthropic 模型表现较好：
- Claude 3.5 Sonnet：返回50个数据块，响应质量高
- Claude 3 Sonnet：返回374个数据块，响应质量好
- Claude 3 Haiku：返回107个数据块，响应质量好
其他模型表现参差不齐：
- Claude Instant：仅返回2个数据块，响应为空
- Claude 3.5 Haiku：返回4个数据块，响应不理想
- Nova Lite：返回27个数据块，响应质量差且包含未处理的XML标签
- Nova Pro：返回232个数据块，但存在XML标签未正确处理的问题