LLM项目新增register_fragment_loaders插件钩子实现GitHub仓库内容加载

2025-05-30 22:01:51作者：宣海椒Queenly

在LLM项目的最新开发中，引入了一个名为register_fragment_loaders的插件钩子，这一功能极大地扩展了LLM处理外部内容的能力。该功能允许开发者通过插件方式加载各种来源的内容片段，特别适合处理GitHub等代码仓库中的文件内容。

功能概述

register_fragment_loaders插件钩子使得用户可以通过特定前缀语法直接从命令行加载外部内容。例如，使用github:前缀可以直接加载GitHub仓库中的所有文本文件：

llm -f github:simonw/llm 'tell me about this repo'

这一命令会克隆指定仓库，并将所有文本文件转换为XML格式的片段，每个文件内容被包裹在<document>标签中，同时包含源文件路径信息。

技术实现细节

片段加载机制

系统通过以下方式处理片段加载：

插件识别github:前缀并解析仓库信息
临时克隆目标GitHub仓库到本地
遍历仓库中的文本文件，为每个文件生成唯一的内容哈希ID
将文件内容封装为XML格式片段
将所有片段组合成最终提示内容

内容去重处理

在实现过程中，开发团队发现需要处理以下技术挑战：

避免包含.git目录中的非必要文件
基于内容哈希实现自动去重
确保相同内容可以多次出现在提示中（如比较两个相同的robots.txt文件）

最终解决方案是修改数据库模式，使用(response_id, fragment_id, order)作为复合唯一键，既保证了片段顺序，又允许相同内容多次出现。

实际应用示例

开发者可以创建类似llm-fragments-github的插件，实现各种自定义片段加载逻辑。例如：

llm -f github:simonw/shot-scraper 'suggest new features'

这一命令会加载shot-scraper项目的所有代码文件，并生成功能改进建议。系统会记录所有加载的片段信息，便于后续分析和调试。

技术价值

register_fragment_loaders插件钩子的引入为LLM项目带来了以下优势：

扩展性：开发者可以轻松添加对各种内容源的支持
一致性：统一的内容片段处理机制
可追溯性：完整记录提示中使用的所有片段来源
灵活性：支持复杂的内容组合和重复使用场景

这一功能特别适合代码分析、文档处理等需要整合多个文件内容的场景，为LLM的实用性和适用范围提供了显著提升。

llm

Access large language models from the command-line

项目地址：https://gitcode.com/gh_mirrors/llm/llm

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

336

178

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

agent-studio

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

LLM项目新增register_fragment_loaders插件钩子实现GitHub仓库内容加载

功能概述

技术实现细节

片段加载机制

内容去重处理

实际应用示例

技术价值

热门内容推荐

最新内容推荐

项目优选

LLM项目新增register_fragment_loaders插件钩子实现GitHub仓库内容加载

功能概述

技术实现细节

片段加载机制

内容去重处理

实际应用示例

技术价值

相关内容推荐

热门内容推荐

最新内容推荐

项目优选