使用ragnar包构建RAG问答系统的完整指南

2025-06-30 00:21:05作者：鲍丁臣Ursa

什么是RAG及其重要性

RAG（检索增强生成）是一种将大型语言模型（LLM）与外部可信知识源相结合的技术框架。ragnar包为R语言环境提供了构建RAG工作流的完整工具链，特别适合开发基于文档的智能问答系统。

传统LLM存在"幻觉"问题——模型会生成看似合理但实际错误的内容。这是因为LLM本质上是在进行文本序列预测，而非事实性推理。RAG通过以下方式解决这一问题：

从可信知识库中检索相关文档片段
要求LLM仅基于这些片段生成回答
提供返回原始文档的链接供用户验证

ragnar核心工作流程

1. 知识库构建阶段

创建存储库

store_location <- "quarto.ragnar.duckdb"
store <- ragnar_store_create(
  store_location,
  embed = \(x) ragnar::embed_openai(x, model = "text-embedding-3-small")
)

支持多种嵌入模型选择：

OpenAI的embed_openai()
开源模型embed_ollama()
自定义嵌入函数

文档处理流程

文档收集：
- 本地文件：使用list.files()
- 网页内容：使用ragnar_find_links()

paths <- ragnar_find_links("https://quarto.org/", depth = 3)

转换为Markdown：
- ragnar_read()支持多种格式转换
- 保持纯文本格式降低token消耗
文档分块与增强：
- 按标题层级结构化文档
- 添加来源上下文信息

read_and_chunk <- function(path) {
  path |>
    ragnar_read(frame_by_tags = c("h1", "h2", "h3")) |>
    ragnar_chunk(boundaries = c("paragraph", "sentence")) |>
    dplyr::mutate(
      text = glue::glue(
        r"---(
        > Excerpt from: {origin}
        > {h1}
        > {h2}
        > {h3}
        {text}
        )---"
      )
    )
}

存入知识库：
- 自动生成嵌入向量
- 构建检索索引

for (path in paths) {
  chunks <- read_and_chunk(path)
  ragnar_store_insert(store, chunks)
}
ragnar_store_build_index(store)

2. 检索与问答阶段

双模式检索机制

向量相似性搜索(VSS)：
- 基于语义相似度
- 理解概念关联性
BM25关键词搜索：
- 传统文本检索
- 精确匹配术语

ragnar_retrieve(store, query, top_k = 10)  # 组合两种检索方式

集成LLM工具

client <- ellmer::chat_openai()
ragnar_register_tool_retrieve(
  client, store, top_k = 10,
  description = "the quarto website"
)

高级检索定制

可构建更复杂的检索逻辑，如：

避免重复返回相同片段
多轮渐进式检索
结果格式化处理

rag_retrieve_quarto_excerpts <- local({
  retrieved_chunk_ids <- integer()
  function(text) {
    chunks <- dplyr::tbl(store) |>
      dplyr::filter(!.data$id %in% retrieved_chunk_ids) |>
      ragnar::ragnar_retrieve(text, top_k = 10)
    
    retrieved_chunk_ids <<- unique(c(retrieved_chunk_ids, chunks$id))
    
    stringi::stri_c(
      "<excerpt>",
      chunks$text,
      "</excerpt>",
      sep = "\n",
      collapse = "\n"
    )
  }
})