Marten 文档数据库中的全文索引配置问题解析

2025-06-26 04:10:12作者：钟日瑜

全文索引功能概述

Marten 是一个基于 PostgreSQL 的 .NET 文档数据库，它提供了全文搜索功能，允许开发者对文档中的特定字段创建全文索引。全文索引是 PostgreSQL 中强大的功能之一，它能够高效地执行文本搜索查询。

问题背景

在早期版本的 Marten 中，开发者发现当通过属性或模式配置指定全文索引字段时，生成的索引实际上是对整个 JSON 文档(data字段)创建的，而不是针对配置的特定字段。这与开发者的预期行为不符，可能导致索引效率低下和查询性能问题。

技术细节分析

预期行为与实际行为的对比

开发者期望当配置如下时：

options.Schema.For<ReferenceData>()
    .FullTextIndex(d => d.SearchableValue);

应该生成类似这样的 SQL 索引定义：

CREATE INDEX mt_doc_referencedata_idx_fts 
ON tests.mt_doc_referencedata 
USING gin (to_tsvector('english'::regconfig, data ->> 'SearchableValue'::text));

但实际上生成的却是：

CREATE INDEX mt_doc_referencedata_idx_fts 
ON tests.mt_doc_referencedata 
USING gin (to_tsvector('english'::regconfig, data));

问题影响

这种差异会导致几个潜在问题：

索引大小膨胀 - 对整个文档建立全文索引会显著增加索引大小
查询性能下降 - 搜索会扫描不必要的内容
搜索结果不精确 - 可能匹配到不相关的字段内容

解决方案验证

在 Marten 6.4.1 版本中，这个问题已经得到修复。开发者可以通过测试用例验证全文索引的正确性：

[Fact]
public async Task ValidateFullTextIndex()
{
    // 配置测试环境
    StoreOptions(o =>
    {
        o.RegisterDocumentType<TestDoc1>();
        o.Schema.For<TestDoc1>().FullTextIndex(x => x.Value);
        
        // 其他类型配置...
    });

    // 插入测试数据...

    // 查询索引定义
    var indexDefinitions = await TheSession.AdvancedSqlQueryAsync<string>(
        $"""
         select indexdef
         from pg_catalog.pg_indexes
         where schemaname = '{SchemaName}'
         and indexname like '%\_idx\_fts' escape '\'
         """, CancellationToken.None);

    // 验证索引定义包含正确的字段引用
    Assert.All(indexDefinitions, idx => Assert.Contains("(data ->> 'Value'::text)", idx));
}