Strands Agents 实时响应流处理技术详解
2025-06-03 10:12:13作者:申梦珏Efrain
引言
在现代人工智能应用开发中,实时处理和展示大语言模型(LLM)的响应变得越来越重要。Strands Agents项目提供了两种强大的实时响应处理机制:异步迭代器和回调处理器。本文将深入解析这两种技术的工作原理、适用场景以及实际应用方法。
技术概览
Strands Agents提供了两种处理实时响应的主要方法:
- 异步迭代器(Async Iterators):适用于FastAPI、aiohttp等异步框架,通过
stream_async方法返回异步迭代器 - 回调处理器(Callback Handlers):允许在代理执行过程中拦截和处理事件,实现实时监控、自定义输出格式等功能
环境准备
系统要求
- Python 3.10+
- AWS账号
- Amazon Bedrock上已启用Anthropic Claude 3.7
依赖安装
!pip install -r requirements.txt
基础导入
import asyncio
import httpx
import nest_asyncio
import uvicorn
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
from pydantic import BaseModel
from strands import Agent, tool
from strands_tools import calculator
方法一:异步迭代器实现流式响应
核心概念
异步迭代器是Python异步编程的重要特性,特别适合处理长时间运行的流式数据。在Strands Agents中,stream_async方法返回的异步迭代器能够实时产生代理执行过程中的各种事件。
基础实现
nest_asyncio.apply() # 允许嵌套异步事件循环
agent = Agent(tools=[calculator], callback_handler=None)
async def process_streaming_response():
agent_stream = agent.stream_async("Calculate 2+2")
async for event in agent_stream:
print(event)
asyncio.run(process_streaming_response())
事件生命周期分析
通过增强的打印格式,我们可以清晰地观察代理执行的生命周期:
async def process_streaming_response():
agent_stream = agent.stream_async("What is the capital of France and what is 42+7?")
async for event in agent_stream:
if event.get("init_event_loop", False):
print("🔄 Event loop initialized")
elif event.get("start_event_loop", False):
print("▶️ Event loop cycle starting")
elif event.get("start", False):
print("📝 New cycle started")
elif "message" in event:
print(f"📬 New message created: {event['message']['role']}")
elif event.get("complete", False):
print("✅ Cycle completed")
elif event.get("force_stop", False):
print(f"🛑 Event loop force-stopped: {event.get('force_stop_reason', 'unknown reason')}")
if "current_tool_use" in event and event["current_tool_use"].get("name"):
tool_name = event["current_tool_use"]["name"]
print(f"🔧 Using tool: {tool_name}")
if "data" in event:
data_snippet = event["data"][:20] + ("..." if len(event["data"]) > 20 else "")
print(f"📟 Text: {data_snippet}")
asyncio.run(process_streaming_response())
FastAPI集成实战
将流式响应集成到FastAPI中可以创建强大的实时API端点。我们首先扩展代理功能,添加天气预测工具:
@tool
def weather_forecast(city: str, days: int = 3) -> str:
return f"Weather forecast for {city} for the next {days} days..."
app = FastAPI()
class PromptRequest(BaseModel):
prompt: str
@app.post("/stream")
async def stream_response(request: PromptRequest):
async def generate():
agent = Agent(tools=[calculator, weather_forecast], callback_handler=None)
try:
async for event in agent.stream_async(request.prompt):
if "data" in event:
yield event["data"]
except Exception as e:
yield f"Error: {str(e)}"
return StreamingResponse(generate(), media_type="text/plain")
async def start_server():
config = uvicorn.Config(app, host="0.0.0.0", port=8001, log_level="info")
server = uvicorn.Server(config)
await server.serve()
server_task = asyncio.create_task(start_server())
await asyncio.sleep(0.1)
print("✅ Server is running at http://0.0.0.0:8001")
客户端调用示例:
async def fetch_stream():
async with httpx.AsyncClient() as client:
async with client.stream(
"POST",
"http://0.0.0.0:8001/stream",
json={"prompt": "What is weather in NYC?"},
) as response:
async for line in response.aiter_lines():
if line.strip():
print("Received:", line)
await fetch_stream()
方法二:回调处理器实现流式响应
核心概念
回调处理器提供了一种更灵活的方式来拦截和处理代理执行过程中的各种事件。这种方法特别适合需要深度定制处理逻辑的场景。
实现自定义回调处理器
def custom_callback_handler(**kwargs):
if "data" in kwargs:
print(f"MODEL OUTPUT: {kwargs['data']}")
elif "current_tool_use" in kwargs and kwargs["current_tool_use"].get("name"):
print(f"\nUSING TOOL: {kwargs['current_tool_use']['name']}")
agent = Agent(tools=[calculator], callback_handler=custom_callback_handler)
agent("Calculate 2+2")
技术对比与选型建议
| 特性 | 异步迭代器 | 回调处理器 |
|---|---|---|
| 适用场景 | 异步框架集成 | 自定义事件处理 |
| 复杂度 | 中等 | 低 |
| 灵活性 | 高 | 极高 |
| 性能 | 优 | 良 |
| 推荐用途 | API流式响应 | 监控、日志、定制输出 |
最佳实践
- 生产环境部署:在FastAPI等异步框架中优先使用异步迭代器
- 调试与监控:使用回调处理器记录详细执行日志
- 性能优化:对于长时间运行的代理,考虑结合两种方法
- 错误处理:确保流式响应中妥善处理异常情况
结语
Strands Agents提供的两种流式响应处理方法各有优势,开发者可以根据具体需求选择合适的技术方案。异步迭代器适合构建实时API,而回调处理器则提供了更细粒度的事件控制能力。掌握这两种技术将大大增强您构建高效、响应式AI应用的能力。
登录后查看全文
热门项目推荐
相关项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0195
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0124
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python05
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
766
5 K
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
859
1.94 K
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
687
1.35 K
Ascend Extension for PyTorch
Python
721
893
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
458
446
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
1.08 K
1.11 K
本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本,由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用,3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。
Dart
1.01 K
262
CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。
Python
1 K
620
openJiuwen agent-studio提供零码、低码可视化开发和工作流编排,模型、知识库、插件等各资源管理能力
TSX
2.99 K
637
华为昇腾面向大规模分布式训练的多模态大模型套件,支撑多模态生成、多模态理解。
Python
152
255