SQLAlchemy-Searchable 项目中的向量化器(Vectorizers)详解

2025-06-24 21:37:34作者：舒璇辛Bertina

什么是向量化器

在全文搜索系统中，向量化器(Vectorizers)是将各种类型的数据列转换为可被全文搜索引擎识别的搜索向量的工具。PostgreSQL 原生支持对字符串列进行向量化处理，但在实际应用中，我们经常需要处理非字符串类型的数据，这时就需要自定义向量化规则。

SQLAlchemy-Searchable 项目提供了灵活的向量化机制，允许开发者针对特定列类型或特定列实例定义专门的向量化规则，从而扩展 PostgreSQL 的全文搜索能力。

类型向量化器(Type Vectorizers)

基本概念

类型向量化器是针对特定列类型定义的向量化规则。当 PostgreSQL 无法直接处理某种数据类型的全文索引时，我们可以通过定义类型向量化器来解决这个问题。

实际应用示例

假设我们有一个使用 PostgreSQL HSTORE 类型存储多语言翻译内容的模型，需要对这些内容建立全文索引：

from sqlalchemy import cast, func, Text
from sqlalchemy.dialects.postgresql import HSTORE
from sqlalchemy_searchable import vectorizer

@vectorizer(HSTORE)
def hstore_vectorizer(column):
    return cast(func.avals(column), Text)

这个向量化器会将 HSTORE 类型的所有值转换为文本形式。func.avals() 是 PostgreSQL 的函数，用于提取 HSTORE 中的所有值，然后我们将其转换为文本类型。

模型定义示例

from sqlalchemy import Column, Integer
from sqlalchemy_utils import TSVectorType

class Article(Base):
    __tablename__ = 'article'
    
    id = Column(Integer, primary_key=True, autoincrement=True)
    name_translations = Column(HSTORE)
    content_translations = Column(HSTORE)
    search_vector = Column(
        TSVectorType(
            "name_translations",
            "content_translations",
        )
    )

应用上述向量化器后，SQLAlchemy-Searchable 会生成相应的 PostgreSQL 触发器函数，将 HSTORE 列的内容正确转换为搜索向量。

列向量化器(Column Vectorizers)

基本概念

列向量化器是针对特定列定义的向量化规则，它比类型向量化器具有更高的优先级。当我们需要对某一特定列采用不同于其类型的处理方式时，可以使用列向量化器。

实际应用示例

class Article(Base):
    __tablename__ = "article"
    
    id = Column(Integer, primary_key=True, autoincrement=True)
    name_translations = Column(HSTORE)
    search_vector = Column(TSVectorType("name_translations"))

@vectorizer(Article.name_translations)
def name_vectorizer(column):
    return cast(func.avals(column), Text)