BoundaryML项目中如何获取LLM原始输出内容的技术解析

2025-06-25 04:52:45作者：范垣楠Rhoda

在BoundaryML项目中，开发者经常需要处理大语言模型(LLM)的输出结果。标准情况下，当调用baml函数如b.FooBar()时，我们会得到一个结构化对象，但有时我们还需要获取原始的完整输出内容，特别是当输出中包含中间推理过程或其他非结构化信息时。

原始输出获取的需求场景

在实际应用中，LLM的输出通常包含两个部分：

结构化数据部分（如JSON格式的指令）
非结构化的中间推理过程（如"Let's think step by step"这样的思考链）

虽然BoundaryML默认会解析结构化部分并返回对象，但在以下场景中开发者可能需要原始输出：

调试和观察模型的完整推理过程
在用户界面中展示模型的思考过程
记录完整的交互历史用于分析
自定义输出格式和展示方式

技术实现方案

BoundaryML提供了Collector机制来捕获原始输出。具体实现方式如下：

from baml_client import b
from baml_py import Collector

# 创建Collector实例
collector = Collector()

# 调用baml函数并传入collector选项
result = b.FooBar(
    baml_options={
        "collector": collector,
    },
)

# 获取最后一次调用的原始输出
if collector.last:
    print(collector.last.raw_llm_response)

技术细节解析

Collector类：这是BoundaryML提供的一个专门用于收集LLM调用信息的工具类，可以捕获包括原始响应在内的各种调用数据。
baml_options参数：这是BoundaryML函数调用的一个特殊参数，用于传递各种调用选项，其中collector选项允许我们指定一个收集器实例。
last属性：Collector实例的last属性保存了最后一次调用的详细信息，包括原始响应(raw_llm_response)、处理后的结果等。
原始响应内容：raw_llm_response属性包含了LLM返回的完整、未经处理的原始文本内容，包括任何中间推理过程和结构化数据部分。