LangChainRB项目中OpenAI嵌入模型参数优化实践

2025-07-08 05:11:49作者：凌朦慧Richard

背景介绍

在LangChainRB这个Ruby语言实现的AI应用开发框架中，OpenAI嵌入模型的使用方式近期发生了变化。特别是关于嵌入维度(dimensions)参数的处理，需要开发者特别注意。

参数变更分析

OpenAI API近期更新后，text-embedding-ada-002模型不再支持手动设置嵌入维度参数。这一变化导致LangChainRB项目中相关代码需要进行调整。技术团队经过讨论，提出了几种优化方案：

警告机制：当开发者传入dimensions参数时，系统会发出警告提示该参数已废弃
智能回退：根据所选模型自动确定合适的嵌入维度
参数过滤：对于不支持该参数的模型，自动忽略传入的dimensions值

模型演进与最佳实践

随着OpenAI推出新一代嵌入模型(text-embedding-3-small和text-embedding-3-large)，技术团队建议：

将默认模型从text-embedding-ada-002升级到text-embedding-3-small，后者不仅性能更优，成本也更低
对于新模型，dimensions参数重新变得有意义，可以用于控制输出向量的维度
保持model参数的灵活性，允许开发者根据需求选择不同模型

实现方案

最终的优化方案采用了以下策略：

def embed(
  text:,
  model: defaults[:embeddings_model_name],
  encoding_format: nil,
  user: nil,
  dimensions: nil
)
  # 参数验证逻辑...
  
  parameters = {
    input: text,
    model: model
  }
  
  # 仅当模型支持且明确传入了dimensions参数时才添加
  parameters[:dimensions] = dimensions if dimensions && model_supports_dimensions?(model)
  
  # 其他参数处理...
end

这种实现方式既保持了向后兼容性，又能够适应不同模型的特异性需求。

开发者建议

对于使用LangChainRB的开发者，建议：

尽快将默认嵌入模型切换到text-embedding-3-small
检查现有代码中是否硬编码了dimensions参数，特别是使用ada-002模型时
对于需要特定输出维度的场景，优先考虑使用新一代嵌入模型

通过这次参数优化，LangChainRB项目更好地适应了OpenAI API的变化，为开发者提供了更灵活、更高效的嵌入功能实现方案。

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。