pgvecto.rs 项目中的自动生成嵌入向量功能探讨

2025-07-05 20:26:03作者：曹令琨Iris

Scalable, Low-latency and Hybrid-enabled Vector Search in Postgres. Revolutionize Vector Search, not Database.

项目地址：https://gitcode.com/gh_mirrors/pg/pgvecto.rs

在向量数据库pgvecto.rs项目中，开发者们正在讨论一个非常有价值的功能：在插入数据行时自动为文本字段生成嵌入向量(embedding)。这一功能将极大简化用户构建基于向量检索的应用流程。

功能设计思路

最初提出的方案是使用PostgreSQL的生成列(GENERATED ALWAYS AS STORED)特性，通过类似以下的SQL语句实现：

CREATE TABLE items (
    ...,
    content text,
    embedding vector(n) GENERATED ALWAYS AS (generate_embedding(content)) STORED
);

这种设计理念是当用户插入或更新content字段时，数据库会自动调用generate_embedding函数为文本生成向量表示，并存储在embedding列中。

技术实现挑战

然而，经过深入讨论发现这种方案存在技术限制。PostgreSQL的生成列要求表达式必须是不可变的(immutable)，而向量生成函数由于涉及IO操作，必须标记为易变的(volatile)。这意味着无法直接使用生成列来实现这一功能。

替代解决方案

项目团队提出了使用触发器(trigger)的替代方案。通过创建一个BEFORE INSERT OR UPDATE触发器，在数据插入或更新前自动调用向量生成函数：

CREATE OR REPLACE FUNCTION update_embedding_column()
RETURNS TRIGGER AS
$$
BEGIN
    NEW.embedding := generate_embedding(NEW.content);
    RETURN NEW;
END;
$$
LANGUAGE plpgsql;

CREATE TRIGGER calculate_embedding
BEFORE INSERT OR UPDATE ON items
FOR EACH ROW
EXECUTE FUNCTION update_embedding_column();

这种方案虽然不如生成列简洁，但能够绕过PostgreSQL的限制，实现相同的功能目标。

功能实现进展

在后续开发中，项目团队已经实现了text2vec_openai和text2vec_openai_v3等向量生成函数。这些函数支持用户指定模型或使用默认的text-embedding-3-small模型来生成向量。

实际应用建议

值得注意的是，团队建议用户考虑创建专门的表来存储向量数据，而不是直接在原表上操作。这种设计模式可以更好地管理向量数据，提高系统灵活性。

总结

虽然自动生成嵌入向量的功能在数据库层面实现存在一定挑战，但pgvecto.rs项目通过触发器等技术手段提供了可行的解决方案。随着相关向量生成函数的不断完善，这一功能将为开发者构建AI应用提供极大便利。

Scalable, Low-latency and Hybrid-enabled Vector Search in Postgres. Revolutionize Vector Search, not Database.

项目地址：https://gitcode.com/gh_mirrors/pg/pgvecto.rs

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

flutter_flutter

Oohos_react_native

React Native鸿蒙化仓库

昇腾LLM分布式训练框架

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统