Langroid项目0.37.0版本发布：新增PDF解析器与OpenAI嵌入模型升级

2025-06-16 09:06:40作者：劳婵绚Shirley

Langroid是一个专注于自然语言处理的开源项目，它提供了强大的工具和框架来处理和分析文本数据。在最新发布的0.37.0版本中，项目团队带来了两项重要更新：新增了两种PDF解析器并升级了OpenAI的嵌入模型支持。

PDF解析能力增强

0.37.0版本引入了两个全新的PDF解析器：docling和pymupdf4llm。这两种解析器为开发者提供了更多选择来处理PDF文档内容，可以满足不同场景下的需求。docling解析器专注于文档语言学处理，而pymupdf4llm则针对大语言模型应用场景进行了优化。

与此同时，开发团队移除了pdfplumber解析器，原因是其依赖项存在版本冲突和过时问题。这一决定体现了项目对稳定性和兼容性的重视，确保用户能够获得最佳的使用体验。

OpenAI嵌入模型更新

紧跟OpenAI在2025年1月25日发布的新模型，Langroid 0.37.0版本及时更新了对最新嵌入模型的支持。现在项目可以无缝使用text-embedding-3-small和text-embedding-3-large等新型号，这些模型在性能和效率上都有显著提升。

嵌入模型是自然语言处理中的关键组件，负责将文本转换为数值向量表示。新版模型的引入意味着Langroid用户现在能够获得更准确、更高效的文本表示能力，为下游任务如文本分类、信息检索等提供更好的基础。

技术意义与应用价值

这次更新对开发者社区具有重要意义。新增的PDF解析器扩展了项目处理非结构化文档的能力，使得从PDF中提取文本信息更加灵活可靠。而OpenAI嵌入模型的及时更新则确保了项目始终处于技术前沿，为用户提供最先进的文本处理能力。

对于需要处理大量文档的研究人员和开发者来说，这些改进意味着他们可以更高效地从PDF文件中提取信息，并使用最新的嵌入技术进行后续分析。无论是构建知识管理系统、开发智能搜索工具，还是进行文本挖掘研究，新版本都提供了更强大的基础支持。

Langroid项目通过持续的技术更新，展现了其对开发者需求的敏锐洞察和对技术前沿的快速响应能力。0.37.0版本的发布进一步巩固了其作为自然语言处理工具链中重要一环的地位。

langroid

Harness LLMs with Multi-Agent Programming

项目地址：https://gitcode.com/gh_mirrors/la/langroid

登录后查看全文

项目优选

收起

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

496

521

pytorch

作为 Ascend for PyTorch 社区的核心组件，TorchNPU 是昇腾专为 PyTorch 打造的深度学习适配插件，使 PyTorch 框架能够直接调用昇腾 NPU，为开发者提供昇腾 AI 处理器的超强算力。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。

AscendNPU-IR是基于MLIR（Multi-Level Intermediate Representation）构建的，面向昇腾亲和算子编译时使用的中间表示，提供昇腾完备表达能力，通过编译优化提升昇腾AI处理器计算效率，支持通过生态框架使能昇腾AI处理器与深度调优

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。

Jupyter Notebook

666

305

Langroid项目0.37.0版本发布：新增PDF解析器与OpenAI嵌入模型升级

PDF解析能力增强

OpenAI嵌入模型更新

技术意义与应用价值

热门内容推荐

最新内容推荐

项目优选

Langroid项目0.37.0版本发布：新增PDF解析器与OpenAI嵌入模型升级

PDF解析能力增强

OpenAI嵌入模型更新

技术意义与应用价值

相关内容推荐

热门内容推荐

最新内容推荐

项目优选