TruLens项目中的AzureOpenAI自定义评分函数实现问题解析

2025-07-01 00:36:51作者：田桥桑Industrious

背景介绍

在自然语言处理(NLP)领域，语义相似度评估是一个常见且重要的任务。TruLens作为一个评估框架，提供了丰富的功能来帮助开发者构建和评估语言模型应用。本文将深入分析在TruLens项目中实现自定义AzureOpenAI评分函数时遇到的技术问题及其解决方案。

问题现象

开发者在TruLens v0.20.3版本中尝试扩展AzureOpenAI提供者(provider)时，遇到了一个关键错误：AttributeError: 'CustomAzureOpenAI' object has no attribute 'generate_score'。这个错误发生在开发者尝试实现一个自定义的语义相似度评分函数时。

技术分析

自定义评分函数的实现原理

在TruLens框架中，开发者可以通过继承现有的提供者类(如AzureOpenAI)来创建自定义反馈函数。这种设计模式允许开发者在保持核心功能的同时，扩展特定的评估逻辑。

版本兼容性问题

经过深入分析，发现generate_score方法是在TruLens v0.24.0版本中才引入的。在v0.20.3版本中，开发者需要使用generate_score_and_reasons方法作为替代方案。这个方法不仅返回评分结果，还可以提供评分依据的元数据。

语义相似度评估的实现

语义相似度评估是NLP中的基础任务，通常需要将两个句子输入到模型中，让模型判断它们在语义上的相似程度。在TruLens框架中，可以通过系统提示(system prompt)来指导模型完成这一任务。

解决方案

对于使用TruLens v0.20.3版本的开发者，可以采用以下实现方式：

from trulens_eval.feedback.provider import AzureOpenAI

class CustomAzureOpenAI(AzureOpenAI):
    def semantic_similarity_between_two_sentences(self, sentence_1: str, sentence_2: str) -> float:
        system_prompt = """
        比较以下两个句子的语义相似度。第一个句子是'{one}'，第二个句子是'{two}'。
        
        只返回0到1之间的数字表示语义相似度，
        其中0表示完全没有语义相似性，1表示两个句子完全一致。
        
        不要提供任何解释。
        """.format(one=sentence_1, two=sentence_2)
        score, _ = self.generate_score_and_reasons(system_prompt=system_prompt)
        return score