Burr项目中的流式输出功能设计与实现

2025-07-10 20:20:26作者：宣利权Counsellor

概述

在现代LLM应用开发中，流式输出是一个关键需求。Burr项目通过创新的设计，为开发者提供了优雅的流式输出解决方案。本文将深入解析Burr框架中流式输出功能的设计思路、API演进和实现细节。

核心设计理念

Burr团队在设计流式输出功能时，主要考虑了以下几个关键点：

即时性与完整性：既要支持实时流式输出，又要保证最终结果的完整性
状态管理：流式输出过程中如何与Burr的状态管理机制协同工作
API简洁性：提供直观易用的API接口，降低开发者学习成本

API演进历程

初始方案：Stream容器

最初设计考虑引入专门的Stream容器来包装生成器：

@action(writes=["response", "chat_history"])
def streaming_text_response(state: State, prompt: str) -> tuple[dict, State]:
    generator = query_streaming(...).stream
    stream = Stream.string(generator)
    result = {"response": generator}
    return result, state.update(response=generator).append(chat_history=result)

这种方案虽然可行，但引入了额外的概念和复杂度，不够Pythonic。

优化方案：直接使用生成器

经过深入讨论，团队决定利用Python生成器的原生特性：

@action(reads=["query"], writes=["response"])
def streaming_output_action(state: State) -> Generator[dict, None, Tuple[dict, State]]:
    buffer = []
    for word in ["hello", "world", "this", "is", "a", "test"]:
        buffer.append(word)
        yield {"response": word}
    response = " ".join(buffer)
    return {"response": response}, state.update(response=response)

这种设计更加简洁，充分利用了Python语言特性，特别是生成器的yield和return结合使用的特性。

最终API设计

Burr最终确定的流式输出API包含同步和异步两种形式：

同步API

result_generator = app.stream_result(halt_after=...)
for result in result_generator:  # 获取中间结果
    yield result['...']
action, state, result = result_generator.get()  # 阻塞直到完成

异步API

result_generator = app.astream_result(halt_after=...)
async for result in result_generator:  # 获取中间结果
    yield result['...']
action, state, result = result_generator.get()  # 阻塞直到完成

关键技术实现

生成器返回值处理：利用生成器可以同时yield和return的特性，yield用于流式输出中间结果，return用于返回最终结果和状态
状态管理：流式处理过程中，状态更新会被延迟到生成器完全执行完毕
生命周期控制：
- halt_before和halt_after参数控制执行流程
- 创建StreamingResultContainer来管理流式结果
异常处理：确保在流式输出中断时，系统状态能够保持一致

最佳实践

流式LLM响应：

@action(reads=["prompt"], writes=["response"])
def streaming_llm_response(state: State) -> Generator[dict, None, Tuple[dict, State]]:
    buffer = ""
    for token in query_llm(state["prompt"]):
        buffer += token
        yield {"response": token}
    return {"response": buffer}, state.update(response=buffer)

进度指示器：

@action(writes=["progress"])
def long_running_task(state: State) -> Generator[dict, None, Tuple[dict, State]]:
    for i in range(100):
        # 执行任务的一部分
        yield {"progress": i}
    return {"progress": 100}, state.update(progress=100)

设计考量

同步优先：当前版本优先实现了同步生成器支持，异步支持将在后续版本中完善
中间结果处理：对于中间步骤的流式输出，框架会自动执行完生成器
钩子执行时机：确保步骤完成钩子只在生成器完全执行后触发

总结

Burr的流式输出功能通过巧妙利用Python生成器特性，为开发者提供了强大而简洁的API。这种设计既满足了实时流式输出的需求，又与Burr的状态管理机制完美融合，为构建复杂的流式应用提供了坚实基础。随着异步支持的完善，这一功能将更加强大和灵活。

burr

Build applications that make decisions (chatbots, agents, simulations, etc...). Monitor, persist, and execute on your own infrastructure.

项目地址：https://gitcode.com/gh_mirrors/bu/burr

登录后查看全文