TinyVector 开源项目教程
2024-08-31 10:50:52作者:申梦珏Efrain
项目介绍
TinyVector 是一个基于 SQLite 和 PyTorch 构建的小型最近邻嵌入数据库。它旨在为小型到中型数据集提供快速的向量查询速度,并且易于定制和扩展。TinyVector 是开源的,采用 MIT 许可证,适用于简单的应用场景,如文档搜索和网站商店搜索。
项目快速启动
安装依赖
首先,确保你已经安装了 Python 和 Rust。然后,克隆项目仓库并安装所需的 Python 包:
git clone https://github.com/m1guelpf/tinyvector.git
cd tinyvector
pip install -r requirements.txt
启动服务器
运行以下命令启动 TinyVector 服务器:
python -m server
使用示例
以下是一个简单的使用示例,展示了如何插入和查询向量:
from tinyvector import TinyVector
# 初始化数据库
db = TinyVector('example.db')
# 插入向量
db.insert([1.0, 2.0, 3.0])
db.insert([4.0, 5.0, 6.0])
# 查询最近邻
nearest = db.query([1.5, 2.5, 3.5])
print(nearest)
应用案例和最佳实践
文档搜索
TinyVector 非常适合用于文档搜索。你可以将文档的嵌入向量存储在 TinyVector 中,并使用查询向量来检索最相关的文档。
# 假设你已经生成了文档的嵌入向量
document_embeddings = [
[0.1, 0.2, 0.3],
[0.4, 0.5, 0.6],
# ...
]
# 插入文档嵌入向量
for embedding in document_embeddings:
db.insert(embedding)
# 查询最相关的文档
query_embedding = [0.15, 0.25, 0.35]
nearest_document = db.query(query_embedding)
print(nearest_document)
网站商店搜索
对于网站商店搜索,你可以将商品的嵌入向量存储在 TinyVector 中,并使用查询向量来检索最相关的商品。
# 假设你已经生成了商品的嵌入向量
product_embeddings = [
[0.1, 0.2, 0.3],
[0.4, 0.5, 0.6],
# ...
]
# 插入商品嵌入向量
for embedding in product_embeddings:
db.insert(embedding)
# 查询最相关的商品
query_embedding = [0.15, 0.25, 0.35]
nearest_product = db.query(query_embedding)
print(nearest_product)
典型生态项目
集成模型
TinyVector 计划支持各种嵌入模型,如 SBert、Hugging Face 模型、OpenAI、Cohere 等。这将使得用户可以直接在服务器上生成向量,而无需自己提供向量。
Python/JS 客户端
TinyVector 将提供全面的 Python 和 JavaScript 包,以便于与 TinyVector 进行集成。
# Python 客户端示例
from tinyvector_client import TinyVectorClient
client = TinyVectorClient('http://localhost:5000')
nearest = client.query([1.5, 2.5, 3.5])
print(nearest)
// JavaScript 客户端示例
const TinyVectorClient = require('tinyvector-client');
const client = new TinyVectorClient('http://localhost:5000');
client.query([1.5, 2.5, 3.5]).then(nearest => {
console.log(nearest);
});
通过这些生态项目,TinyVector 可以更好地与其他工具和框架集成,提供更强大的功能和更好的用户体验。
登录后查看全文
热门项目推荐
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0138- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
MiniCPM-V-4.6这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
MusicFreeDesktop插件化、定制化、无广告的免费音乐播放器TypeScript00
热门内容推荐
最新内容推荐
项目优选
收起
暂无描述
Dockerfile
726
4.66 K
Ascend Extension for PyTorch
Python
599
750
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.09 K
610
deepin linux kernel
C
29
16
Claude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed.
Get Started
Rust
1.01 K
138
openEuler内核是openEuler操作系统的核心,既是系统性能与稳定性的基石,也是连接处理器、设备与服务的桥梁。
C
427
377
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
992
987
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
1.66 K
971
暂无简介
Dart
969
246
昇腾LLM分布式训练框架
Python
162
190