MLX-LM项目：如何获取LLM生成文本的词汇概率分布

2025-05-30 11:23:48作者：丁柯新Fawn

在大型语言模型(LLM)的应用开发中，我们经常需要深入了解模型生成文本时的内部决策过程。MLX-LM作为苹果MLX框架下的语言模型工具包，提供了强大的文本生成能力。本文将介绍如何扩展MLX-LM的功能，获取模型生成每个token时的完整词汇概率分布。

为什么需要词汇概率分布

传统文本生成通常只返回最终生成的文本序列，但在许多应用场景中，我们需要更详细的信息：

模型行为分析：了解模型在生成过程中考虑了哪些候选词
不确定性评估：通过概率分布判断模型对生成内容的置信度
可控生成：基于概率分布实现更精细的生成控制策略
错误诊断：分析模型生成错误时的内部决策过程

实现方案

MLX-LM的核心生成函数generate_step实际上已经返回了每个token的概率分布信息，只是默认的generate函数没有暴露这一功能。我们可以通过简单的包装函数来实现这一需求：

import mlx.core as mx
from mlx_lm.utils import generate_step

def generate_with_logprobs(model, tokenizer, prompt, max_tokens, **kwargs):
    # 将输入文本编码为token序列
    prompt_tokens = mx.array(tokenizer.encode(prompt))
    detokenizer = tokenizer.detokenizer
    
    # 重置detokenizer状态
    detokenizer.reset()
    all_logprobs = []
    
    # 逐步生成文本并收集概率分布
    for (token, logprobs), n in zip(
        generate_step(prompt_tokens, model, **kwargs),
        range(max_tokens),
    ):
        if token == tokenizer.eos_token_id:
            break
        detokenizer.add_token(token)
        all_logprobs.append(logprobs)
    
    # 完成文本解码
    detokenizer.finalize()
    return detokenizer.text, all_logprobs

技术细节解析

输入处理：首先使用tokenizer将输入文本编码为token序列，这是模型处理的格式
逐步生成：通过generate_step函数迭代生成每个token，该函数返回生成的token及其对应的词汇概率分布
概率收集：将每个步骤的概率分布(logprobs)收集到列表中，logprobs是模型在词汇表上的对数概率分布
文本解码：使用detokenizer将生成的token序列转换回可读文本
终止条件：遇到结束符(EOS)或达到最大生成长度时停止生成

应用示例

from mlx_lm import load

# 加载模型和tokenizer
model, tokenizer = load("mlx-community/Mistral-7B-Instruct-v0.3-4bit")

# 生成文本并获取概率分布
text, logprobs = generate_with_logprobs(
    model, 
    tokenizer, 
    prompt="请解释量子力学的基本概念",
    max_tokens=100,
    temperature=0.7
)

# 分析概率分布
for token, probs in zip(text, logprobs):
    print(f"Token: {token}")
    print(f"Top 5候选词及概率: {probs.topk(5)}")