Guidance项目中使用gen函数生成HTML标签问题的分析与解决

2025-05-10 16:51:51作者：牧宁李

在Guidance项目（一个用于构建和控制大型语言模型输出的Python库）的实际应用中，开发者可能会遇到一个特殊问题：当使用gen函数生成文本时，模型会不必要地添加HTML标签，导致输出结果难以直接提取和使用。本文将深入分析这一现象的原因，并提供有效的解决方案。

问题现象分析

当使用Guidance库的gen函数配合Llama-3 8B/70B或Mixtral等模型时，生成的输出会被自动包裹在类似<||_html:<span style='background-color: rgba(0.0, 165.0, 0, 0.15); border-radius: 3px;' title='1.0'>_||>的HTML标签中。这些标签虽然不影响内容的完整性，但会显著增加后续处理的复杂度。

这种现象在以下场景尤为明显：

生成JSON格式的输出时
使用select函数进行选项选择时
需要直接提取生成文本进行后续处理时

问题本质

经过深入分析，这种现象并非Guidance库本身的bug，而是IPython环境对输出的"美化"处理。当在交互式环境中设置echo=True时，系统会自动添加这些格式化标签以提高可读性。

解决方案

方案一：关闭echo模式

最直接的解决方法是初始化模型时设置echo=False：

llm = models.Transformers(
    model_id, 
    echo=False,  # 关键修改
    cache_dir="/data2/.shared_models/", 
    device_map='auto'
)

方案二：使用键值提取

即使保留了HTML标签，Guidance库仍提供了可靠的内容提取机制。通过__getitem__方法，可以直接获取命名生成的内容：

# 定义生成内容时命名
"Substance Use Explanation": "{gen('Substance Use Explanation', stop='"')}"

# 后续提取
substance_explanation = llm["Substance Use Explanation"]

方案三：使用capture函数

对于需要捕获长文本或多段生成内容的情况，可以使用capture函数进行封装：

from guidance import capture

@guidance
def my_function(lm):
    with capture("my_output"):
        lm += "Some text"
        lm += gen("part1")
        lm += "More text"
        lm += gen("part2")
    return lm

# 提取完整内容
full_output = llm["my_output"]