TruLens 1.3.0版本发布：优化反馈函数与评测能力提升

2025-06-19 17:27:56作者：滑思眉Philip

TruLens是一个专注于大语言模型(LLM)评估和监控的开源框架，它通过提供可量化的反馈机制帮助开发者理解和改进模型表现。在最新发布的1.3.0版本中，TruLens带来了两项重要改进：全局性的基础性反馈优化和新的反馈函数对齐机制。

基础性反馈函数的全局优化

基础性(groundedness)是评估LLM生成内容是否基于事实依据的重要指标。1.3.0版本对基础性反馈函数进行了全面优化，通过改进提示词模板和评估标准，显著提升了反馈的准确性和一致性。这一改进使得自动评估结果更加接近人工评估的质量。

新版基础性评估增加了多项细致的评判标准，包括：

生成内容是否包含无法验证的断言
是否存在与源材料相矛盾的信息
是否添加了源材料中不存在的新信息
是否遗漏了关键事实细节

这些改进使得基础性评估更加全面和可靠，开发者可以更有信心地依赖这些自动反馈来优化模型表现。

反馈函数对齐的新机制

1.3.0版本引入了两种强大的新方法来定制和优化反馈函数：

自定义评估标准

开发者现在可以为反馈函数添加自定义的评估标准，从而更精确地控制反馈行为。例如，在情感分析反馈中，可以要求系统特别关注表达方式的热情程度：

custom_criteria = """
积极情感应该以极其鼓励和热情的语气表达。
"""

provider.sentiment(
    "当你准备开始创业时，你会惊讶于自己能取得的成就！",
    criteria=custom_criteria,
)

少样本示例引导

通过提供少量示例，开发者可以引导反馈函数按照特定标准进行评估。这在需要特殊领域知识或特定评估风格时特别有用：

fewshot_relevance_examples_list = [
    (
        {
            "query": "创业时需要考虑哪些关键因素？",
            "response": "你应该专注于与导师和行业专家建立关系。社交网络可以提供见解，打开机会之门，并帮助你避免常见陷阱。",
        },
        3,  # 相关性评分
    ),
]

provider.relevance(
    "创业时需要考虑哪些关键因素？",
    "找一位能在早期阶段指导你并帮助你应对常见挑战的导师。",
    examples=fewshot_relevance_examples_list,
)