在Crawl4AI项目中配置Azure OpenAI API密钥的完整指南

2025-05-03 20:14:42作者：晏闻田Solitary

背景介绍

Crawl4AI是一个强大的网络爬虫工具，专门为AI应用设计，能够从网页中提取结构化数据。该项目默认使用OpenAI的API密钥进行数据处理，但在实际企业应用中，许多开发者更倾向于使用Azure OpenAI服务，因为其提供了更好的企业级支持和管理功能。

为什么需要配置Azure OpenAI

Azure OpenAI服务相比原生OpenAI API具有以下优势：

企业级安全性和合规性
更好的资源管理和配额控制
与Azure生态系统的无缝集成
私有网络部署选项

配置步骤详解

1. 环境变量设置

首先需要设置三个关键环境变量：

import os

os.environ["AZURE_API_KEY"] = "你的Azure OpenAI密钥"
os.environ["AZURE_API_BASE"] = "你的Azure OpenAI终结点URL"
os.environ["AZURE_API_VERSION"] = "API版本号(如2023-05-15)"

这三个变量分别对应：

API密钥：用于身份验证
API基础URL：你的Azure OpenAI服务终结点
API版本：确保与你的服务版本兼容

2. 模型部署配置

在Azure OpenAI中，你需要先创建一个模型部署。假设你已创建名为"gpt-4o-mini"的部署，在代码中需要这样指定：

provider = "azure/gpt-4o-mini"

3. 完整示例代码

以下是一个完整的知识图谱提取示例，展示了如何将Azure OpenAI集成到Crawl4AI的工作流中：

from pydantic import BaseModel
from typing import List
from crawl4ai import AsyncWebCrawler, LLMExtractionStrategy

# 定义数据模型
class Entity(BaseModel):
    name: str
    description: str
    
class Relationship(BaseModel):
    entity1: Entity
    entity2: Entity
    description: str
    relation_type: str

class KnowledgeGraph(BaseModel):
    entities: List[Entity]
    relationships: List[Relationship]

# 配置提取策略
extraction_strategy = LLMExtractionStrategy(
    provider="azure/gpt-4o-mini",
    api_base=os.environ["AZURE_API_BASE"],
    api_token=os.environ["AZURE_API_KEY"],
    schema=KnowledgeGraph.model_json_schema(),
    extraction_type="schema",
    instruction="从给定文本中提取实体和关系"
)

# 执行爬取和提取
async with AsyncWebCrawler() as crawler:
    result = await crawler.arun(
        url="https://example.com/article",
        bypass_cache=True,
        extraction_strategy=extraction_strategy,
    )
    
    # 保存提取结果
    with open("knowledge_graph.json", "w") as f:
        f.write(result.extracted_content)