在Aurora项目中实现流式打印API返回内容的技术解析

2025-07-03 20:43:13作者：袁立春Spencer

概述

在Aurora项目的开发过程中，处理大型语言模型(LLM)的API响应时，流式传输(Streaming)是一种提高用户体验的重要技术。本文将深入探讨如何在Python中实现流式打印API返回内容的技术方案。

流式传输的基本原理

流式传输允许服务器在生成响应内容的同时逐步发送数据，而不是等待整个响应完成后再一次性发送。这种方式特别适合处理大型语言模型的输出，因为：

用户可以即时看到部分结果，无需等待整个响应完成
降低了内存使用，因为不需要缓存整个响应
提高了响应速度，特别是对于长文本生成场景

技术实现方案

关键组件

HTTP请求头设置：必须包含'Accept': 'text/event-stream'头部，告知服务器客户端支持服务器发送事件(SSE)
stream参数：在请求数据中设置"stream": True启用流式传输
响应处理：使用response.iter_lines()逐行处理服务器返回的数据

完整实现代码

import requests
import json

url = "http://127.0.0.1:8080/v1/chat/completions"
headers = {'Accept': 'text/event-stream'}
data = {
    "model": "gpt-3.5-turbo",
    "messages": [{
        "role": "user",
        "content": "Hello!"
    }],
    "stream": True
}

response = requests.post(url, stream=True, headers=headers, data=json.dumps(data))
for line in response.iter_lines(decode_unicode=True):
    if line:
        if line.startswith("data:"):
            event_data = line[5:].strip()
            if event_data == '[DONE]':
                break
            try:
                event_json = json.loads(event_data)
                if 'content' in event_json['choices'][0]['delta']:
                    print(event_json['choices'][0]['delta']['content'], end="", flush=True)
            except json.JSONDecodeError as e:
                print("Error decoding JSON:", e)
        else:
            print("Invalid SSE format")
response.close()

代码解析

请求配置：
- 设置stream=True参数启用流式请求
- 使用text/event-stream内容类型表明支持服务器发送事件
响应处理：
- iter_lines()方法逐行读取响应内容
- 检查每行是否以"data:"开头，这是SSE的标准格式
- 处理特殊的"[DONE]"事件表示流结束
- 解析JSON内容并提取增量(delta)更新
输出处理：
- 使用end=""避免自动换行
- flush=True确保内容立即显示而不被缓冲