LangChain-Chroma 0.2.0版本发布：向量存储的重大升级

2025-05-31 00:10:53作者：薛曦旖Francesca

项目简介

LangChain-Chroma是LangChain生态系统中与Chroma向量数据库集成的关键组件。作为一款专为AI应用设计的轻量级向量数据库，Chroma提供了高效的相似性搜索能力，而LangChain-Chroma则在此基础上提供了更高级的抽象和便捷的接口，使开发者能够轻松地将向量存储功能集成到LangChain应用中。

核心改进

持久化存储的可靠性增强

0.2.0版本修复了当传递client_settings参数时持久化存储可能失效的问题。这一改进确保了在各种配置场景下数据都能被正确持久化，为生产环境提供了更高的可靠性保障。

ID管理机制的优化

新版本对文档ID的处理逻辑进行了重构，现在支持直接使用文档对象的id属性作为向量存储的ID。这一变化使得与现有系统的集成更加无缝，同时也提供了更灵活的ID管理方式。

# 新版本支持直接使用文档id
document = Document(page_content="...", id="custom_id")
vectorstore.add_documents([document])

新增关键API方法

0.2.0引入了两个重要的新方法：

get_by_ids：允许开发者通过ID列表直接检索特定文档，这在需要精确获取已知文档的场景下非常有用。
增强的delete方法：现在支持传递额外的kwargs参数到底层的Chroma集合删除操作，提供了更细粒度的删除控制能力。

向量检索功能的扩展

新版本增加了对嵌入向量的检索支持，开发者现在可以不仅获取文档内容，还能获取其对应的向量表示。这一特性为需要直接操作向量的高级应用场景（如向量分析、再训练等）提供了可能。

测试与稳定性提升

本次发布包含了多项测试相关的改进：

统一了同步和异步向量存储的测试套件，确保两者行为一致
在CI中增加了Python 3.13的测试支持
修复了多个集成测试问题
禁用了单元测试中的socket连接，提高测试的隔离性和可靠性

向后兼容性说明

值得注意的是，0.2.0版本正式弃用了0.5.7至0.5.12的旧版本。开发者应尽快升级以避免使用已弃用的功能。新版本保持了良好的API兼容性，大多数现有代码无需修改即可正常工作。

性能优化

内部重构使得向量存储操作更加高效，特别是在处理大批量文档时。新的ID分配逻辑减少了不必要的计算开销，而持久化机制的改进则降低了I/O操作的频率。

应用场景建议

0.2.0版本特别适合以下场景：

需要高可靠持久化存储的知识库应用
基于自定义ID管理策略的文档检索系统
需要同时访问文档内容和原始向量的复杂AI流水线
对删除操作有精细控制需求的内容管理系统

升级建议

对于现有项目，建议在测试环境中首先验证0.2.0版本的兼容性。特别需要注意以下几点：

检查是否使用了已弃用版本的Chroma
验证自定义ID相关的代码逻辑
测试持久化功能在特定配置下的表现
评估新的向量检索功能是否能为应用带来额外价值

总体而言，LangChain-Chroma 0.2.0通过多项关键改进和新增功能，为开发者提供了更强大、更可靠的向量存储解决方案，进一步巩固了其在LangChain生态系统中的重要地位。

langchain

The agent engineering platform.

项目地址：https://gitcode.com/GitHub_Trending/la/langchain

登录后查看全文