9个核心架构解析：LLM从原理到实践的技术演进

2026-04-16 09:01:01作者：庞眉杨Will

大型语言模型（LLM）已成为人工智能领域的基石技术，而"llms-from-scratch-cn"项目为开发者提供了从底层理解并实现这些模型的完整路径。本文将系统剖析LLM的核心架构设计，通过三大模块九项关键技术点，全面展示从基础原理到工程落地的完整知识体系。无论你是AI领域的初学者还是有经验的开发者，这些深度解析都将帮助你构建对LLM的系统性认知。

学习路径图

该路径图展示了LLM架构的知识关联：从最基础的嵌入层技术，到核心的注意力机制，再到工程化的训练与推理策略，形成完整的技术栈。每个技术点既是独立的知识单元，又与其他技术紧密关联，共同构成LLM的复杂系统。

一、基础原理篇

1.1 Transformer解码器架构：自回归生成的核心引擎

核心问题：为什么Transformer解码器成为LLM主流架构？

原理拆解： Transformer解码器架构是现代LLM的基础，与原始Transformer相比，它专注于自回归生成（Auto-regressive Generation）任务，采用从左到右的文本生成方式。这种架构通过堆叠多个Transformer块实现深度神经网络，每个块包含多头注意力层和前馈网络，能够捕捉文本序列中的长距离依赖关系。

数学上，自回归生成过程可表示为：

P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, ..., x_{i-1})

其中， $x_{i}$ 表示序列中的第i个token，模型通过条件概率逐步生成完整序列。

代码关联：在项目的gpt.py文件中，GPT类的实现完整展示了解码器架构。关键代码位于GPT类的__init__方法（约L45-L62行），其中定义了token嵌入层、位置嵌入层、12个Transformer块的堆叠，以及最后的输出线性层。每个Transformer块包含掩码多头注意力和前馈网络，通过循环结构实现深度堆叠。

实践价值：理解解码器架构是掌握LLM工作原理的第一步。相比RNN类模型，Transformer解码器通过并行计算注意力机制，显著提升了训练效率和上下文捕捉能力。在实际应用中，这种架构使得模型能够生成连贯且上下文相关的长文本，是ChatGPT、Llama等模型的核心引擎。

通俗解释：如果把文本生成比作写文章，Transformer解码器就像是一位特别有条理的作者。它不会像RNN那样逐字思考，而是能够同时考虑前面已经写过的所有内容，并且在写作过程中不断回顾和调整，确保最终生成的内容连贯且符合上下文。

实践Tips：

尝试修改gpt.py中的n_layer参数，观察模型深度对生成效果的影响
通过调整n_head参数，体会注意力头数量与模型表达能力的关系
使用较小的模型配置（如n_embd=128）进行快速实验，理解架构原理

1.2 词嵌入与位置编码协同机制：序列理解的基础

核心问题：如何让模型同时理解词语含义和顺序信息？

原理拆解：文本输入需要经过两个关键转换步骤：词嵌入（Token Embedding）将离散的token映射为连续的向量空间，位置编码（Positional Encoding）则注入序列顺序信息。项目采用可学习的绝对位置编码，将位置向量直接添加到词嵌入中，形成模型的最终输入表示。

词嵌入过程可表示为：

E = \text{Embedding}(x)

P = \text{PositionalEmbedding}(pos)

X = E + P

其中， $x$ 是输入token序列， $p o s$ 是每个token的位置索引， $X$ 是最终的输入表示矩阵。

代码关联：词嵌入的实现可参考2.8词位置编码.ipynb，其中详细展示了位置嵌入层的创建过程。在gpt.py中，token_embedding和pos_embedding两个nn.Embedding层（L50-L51行）分别负责词嵌入和位置编码，随后通过加法操作融合（L100行）。

实践价值：嵌入层是模型理解语言的基础，良好的嵌入表示能够显著提升模型性能。在实践中，预训练嵌入可以加速模型收敛，而可学习的位置编码使模型能够适应不同长度的序列。理解嵌入机制有助于解决OOV（未登录词）问题和长序列处理挑战。

通俗解释：如果把词语比作钥匙，那么词嵌入就是钥匙的形状，决定了它能打开哪些锁（表示相似含义）。位置编码则像是给每把钥匙贴上了序号标签，告诉模型这些钥匙应该按什么顺序使用。两者结合，模型才能既理解每个词的含义，又明白它们在句子中的位置关系。

实践Tips：

在2.8词位置编码.ipynb中尝试不同的位置编码策略
可视化嵌入空间，观察相似词语的向量距离
调整嵌入维度（n_embd参数），分析其对模型性能和计算效率的影响

1.3 注意力缩放机制：稳定训练的关键设计

核心问题：为什么需要对注意力分数进行缩放？

原理拆解：注意力机制的核心是计算查询（Q）和键（K）的相似度，通常通过点积实现。当特征维度 $d_{k}$ 较大时，点积结果的方差会增大，导致softmax函数梯度消失。注意力缩放机制通过除以 $\sqrt{d_k}$ 来归一化QK乘积，使数值保持在合理范围内。

缩放点积注意力公式：

Attention(Q,K,V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V

其中， $d_{k}$ 是查询和键的维度，缩放操作有效防止了softmax输入值过大导致的梯度消失问题。

代码关联：在llama3-from-scratch.ipynb中，注意力计算部分（约L150-L165行）实现了缩放机制。关键代码为scores = qk / math.sqrt(d_k)，其中d_k是每个注意力头的维度（通过隐藏层维度除以头数得到）。

实践价值：缩放机制是Transformer能够稳定训练的关键因素之一。在实践中，不恰当的缩放会导致模型收敛困难或性能下降。理解这一机制有助于在设计新模型或调整超参数时做出合理决策，特别是在修改隐藏层维度或注意力头数量时。

通俗解释：想象你在比较多个物品的重量，但有些物品用克作单位，有些用千克作单位。直接比较数字会得到错误结果。注意力缩放就像是统一单位，将不同维度的注意力分数转换到同一尺度上，确保比较的公平性和准确性。

实践Tips：

尝试在代码中移除缩放操作，观察模型训练过程的变化
调整头数和隐藏层维度，分析对注意力分数分布的影响
可视化缩放前后的注意力权重矩阵，理解其数值分布变化

二、核心组件篇

2.1 多头注意力机制：并行捕捉多维度关系

核心问题：多头注意力如何提升模型的表达能力？

原理拆解：多头注意力通过将查询、键、值矩阵分割成多个并行的子空间（头），在每个子空间中独立计算注意力，最后拼接结果。这种机制使模型能够同时捕捉不同类型的关系模式，如语法依赖、语义关联等。

多头注意力公式：

M u l t i H e a d (Q, K, V) = C o n c a t (h e a d_{1}, h e a d_{2}, . . ., h e a d_{h}) W^{O}

where\ head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

其中，h是头的数量， $W_{i}^{Q}, W_{i}^{K}, W_{i}^{V}$ 是投影矩阵， $W^{O}$ 是输出投影矩阵。

代码关联：多头注意力的实现在llama3-from-scratch.ipynb中（约L130-L180行）。代码首先将输入通过线性层投影到Q、K、V，然后使用view和transpose操作将其分割为多个头，并行计算注意力后拼接结果。

实践价值：多头注意力显著提升了模型捕捉复杂关系的能力。在实际应用中，不同头会关注不同类型的信息，有些头专注于语法结构，有些则捕捉语义关系。理解多头注意力有助于模型解释和调试，例如通过分析注意力权重可视化模型关注的重点。

通俗解释：如果把注意力机制比作一个团队在分析问题，那么多头注意力就像是团队中的多个专家。每个专家（头）从不同角度分析问题（关注不同类型的关系），最后汇总所有专家的意见形成最终决策。这种分工协作方式比单一专家（单头注意力）更能处理复杂问题。

实践Tips：

在llama3-from-scratch.ipynb中尝试不同的头数配置
可视化不同头的注意力权重，观察它们关注的文本区域差异
尝试"注意力蒸馏"，通过减少头数来压缩模型，分析性能变化

2.2 RoPE位置编码：相对位置信息的高效表达

核心问题：如何让模型更好地理解序列中的相对位置关系？

原理拆解：旋转位置编码（Rotary Position Embedding, RoPE）通过复数空间的旋转变换注入位置信息，使模型能够自然捕捉相对位置关系。RoPE将查询和键向量进行旋转，旋转角度与位置相关，从而在注意力计算中引入相对位置偏差。

RoPE的旋转公式：

R(\theta) = \begin{bmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{bmatrix}

\theta = m \times 10^{-2d/pe\_dim}

其中，m是位置索引，d是维度索引，pe_dim是位置编码维度。

代码关联： RoPE的实现在llama3-from-scratch.ipynb中（约L200-L250行）。代码首先创建旋转矩阵，然后通过复数运算实现向量旋转，最后将旋转后的查询和键用于注意力计算。

实践价值：相比传统的绝对位置编码，RoPE在处理长序列和外推任务时表现更优。在实践中，采用RoPE的模型能够更好地理解长距离依赖关系，这对文档级任务和多轮对话系统至关重要。理解RoPE原理有助于优化模型在长文本场景下的性能。

通俗解释：如果把每个token向量比作一个箭头，RoPE就像是让这些箭头随着位置变化而旋转一定角度。相邻的token箭头旋转角度相近，而距离远的token旋转角度差异大。这种旋转方式使得模型能够通过箭头之间的角度差来判断token之间的相对位置，而不仅仅是记住它们的绝对位置。

实践Tips：

对比RoPE与绝对位置编码在长序列任务上的性能差异
调整RoPE的维度参数，分析其对模型性能的影响
可视化不同位置的向量旋转效果，直观理解相对位置编码机制

2.3 前馈网络与SwiGLU激活：非线性变换的艺术

核心问题：前馈网络如何增强模型的非线性表达能力？

原理拆解： Transformer块中的前馈网络（FFN）负责对注意力输出进行非线性变换，通常由两个线性层和中间的激活函数组成。现代LLM广泛采用SwiGLU（Swish-Gated Linear Unit）激活函数，它结合了门控机制和非线性变换，能够更灵活地控制信息流。

SwiGLU激活函数：

SwiGLU(x) = Swish(xW_1 + b_1) \otimes (xW_2 + b_2)

其中， $\otimes$ 表示元素-wise乘法，Swish是一种平滑的非线性激活函数。

代码关联：前馈网络的实现在gpt.py的FeedFoward类中（约L70-L85行）。代码实现了"升维-激活-降维"的经典结构，通过两个线性层（分别将维度扩展4倍和恢复原维度）和GELU激活函数（SwiGLU的简化版本）实现非线性变换。

实践价值：前馈网络是模型表达能力的关键来源，负责捕捉复杂的非线性模式。在实践中，FFN的维度扩展比例（通常为4倍）和激活函数的选择对模型性能有显著影响。理解FFN的工作原理有助于在模型设计时平衡性能和计算效率。

通俗解释：如果把注意力机制比作考虑不同信息的重要性，那么前馈网络就像是对筛选后的信息进行深度加工。它先将信息扩展到更丰富的表示空间（升维），通过激活函数进行非线性变换（提炼特征），最后压缩回原维度（总结精华）。这个过程类似于人类思考时的"发散-收敛"思维模式。

实践Tips：

在gpt.py中尝试不同的激活函数（ReLU、Swish、SwiGLU）
调整FFN的维度扩展比例，分析对模型性能和计算量的影响
可视化前馈网络各层的激活值分布，理解信息处理过程

2.4 层归一化与残差连接：深度网络的稳定器

核心问题：如何训练数百层的深度Transformer网络？

原理拆解：层归一化（Layer Normalization）通过对每一层的输入进行标准化处理（零均值、单位方差），稳定网络训练。残差连接（Residual Connection）则通过将输入直接添加到子层输出，缓解深层网络的梯度消失问题，使模型能够扩展到数百层。

层归一化公式：

LN(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

其中， $μ \mu$ 和 $\sigma^2$ 是输入的均值和方差， $\gamma$ 和 $\beta$ 是可学习参数。

代码关联：层归一化和残差连接的实现在gpt.py的Block类中（约L90-L115行）。每个Transformer块包含两个子层：注意力子层和前馈子层，每个子层都采用"归一化-变换-残差相加"的结构，即x = x + dropout(sublayer(norm(x)))。

实践价值：层归一化和残差连接是训练深度Transformer的关键技术。在实践中，这些技术使模型能够稳定训练数百甚至数千层，显著提升模型容量和性能。理解这些机制有助于诊断训练不稳定问题，优化深层网络的收敛性。

通俗解释：如果把深度网络比作一场马拉松，层归一化就像是给每个跑者提供标准化的补给站，确保他们在不同阶段都能获得适当的能量补充。残差连接则像是在每个站点设置的"快速通道"，让梯度信息可以直接传递到前面的层，避免在长距离传递中"迷路"或"衰减"。

实践Tips：

尝试在代码中移除残差连接，观察模型训练过程的变化
比较层归一化与批归一化在Transformer中的效果差异
调整归一化的位置（前置或后置），分析对模型性能的影响

三、工程实践篇

3.1 预训练与微调两阶段策略：从通用到专用的模型进化

核心问题：如何高效地将通用LLM适配到特定任务？

原理拆解： LLM采用两阶段训练策略：首先在大规模无标注文本语料上进行预训练（Pretraining），学习通用语言知识和世界常识；然后在小规模任务特定数据上进行微调（Fine-tuning），使模型适应具体应用场景。这种策略兼顾了模型的通用性和任务适配性。

预训练目标通常是自回归语言建模：

\mathcal{L}(\theta) = -\sum_{i=1}^{n} \log P(x_i | x_1, ..., x_{i-1};\theta)

微调则根据具体任务调整目标函数，如分类任务采用交叉熵损失，生成任务保留自回归损失。

代码关联：预训练实现可参考gpt_train.py（约L100-L150行），其中定义了训练循环和损失计算。微调代码在gpt-class-finetune.py中（约L80-L120行），展示了如何在预训练模型基础上添加分类头并调整训练参数。

实践价值：两阶段策略显著降低了LLM的应用门槛。在实践中，开发者无需从头训练模型，只需在预训练基础模型上微调即可适应特定任务。这种方式不仅节省计算资源，还能利用预训练模型的丰富知识，提升下游任务性能。

通俗解释：预训练就像是在学校接受通识教育，学习各种基础知识；微调则像是参加职业培训，针对特定工作技能进行强化。通过这种方式，模型既能具备广泛的知识基础，又能在特定领域表现专业。这比为每个领域从头训练一个模型高效得多。

实践Tips：

尝试不同的微调学习率，观察过拟合现象
比较全参数微调和冻结部分层的效果差异
实验不同的微调数据量，分析数据规模对性能的影响

3.2 高效推理技术：KVCache与量化优化

核心问题：如何加速LLM的文本生成过程？

原理拆解： LLM推理面临两大挑战：计算量大和内存占用高。KVCache技术通过缓存先前token的键（K）和值（V）向量，避免重复计算，将生成N个token的复杂度从O(N²)降至O(N)。量化技术则通过降低参数精度（如从FP32到INT8），减少内存占用并加速计算。

KVCache利用了自回归生成的特性：

P(x_{t+1} | x_1, ..., x_t) = f(x_t, \text{Cache}(x_1, ..., x_{t-1}))

其中，Cache存储了先前计算的K和V向量，避免重复计算。

代码关联： KVCache的实现在gpt.py的generate函数中（约L180-L220行）。代码通过维护一个cache列表，存储每一层的K和V向量，并在生成新token时仅计算当前token的Q，与缓存的K和V进行注意力计算。

实践价值：高效推理技术是LLM落地应用的关键。在实践中，KVCache可将生成速度提升3-5倍，量化技术可减少50-75%的内存占用，使LLM能够在普通硬件上运行。理解这些技术有助于优化部署性能，降低应用门槛。

通俗解释： KVCache就像是写文章时的"草稿纸"，记录了你之前思考的关键信息，不需要每次写新句子都重新回忆所有内容。量化技术则像是用缩写记录笔记，在不丢失关键信息的前提下，减少记录所需的空间和时间。两者结合，让模型能够更高效地"思考"和"写作"。

实践Tips：

实现不同的采样策略（贪婪搜索、温度采样），比较生成质量和速度
尝试简单的量化方案（如INT8），分析性能与精度的权衡
测量不同序列长度下的推理速度，理解KVCache的效果

3.3 架构对比：主流LLM的技术演进

核心问题：不同LLM架构有哪些关键差异和技术创新？

原理拆解：从GPT到Llama3，LLM架构经历了持续演进：GPT系列采用标准Transformer解码器和绝对位置编码；Llama引入RoPE位置编码和SwiGLU激活函数；Phi系列优化了注意力机制和预训练目标。这些演进反映了对效率、性能和可扩展性的持续追求。

主要架构差异：

位置编码：绝对位置编码（GPT）→ RoPE（Llama）→ ALiBi（PaLM）
激活函数：ReLU → GELU → SwiGLU
注意力机制：标准多头 → 分组查询注意力（GQA）→ 多查询注意力（MQA）
归一化：Post-LN → Pre-LN → RMSNorm

代码关联：项目的Model_Architecture_Discussions目录包含多种LLM架构的实现，如llama3-from-scratch.ipynb展示了RoPE和SwiGLU的实现，phi-3/phi-3.ipynb展示了注意力优化技术。

实践价值：了解架构演进有助于把握LLM技术发展趋势。在实践中，不同架构各有优势：Llama系列注重效率，GPT系列强调通用性，Phi系列优化小模型性能。理解这些差异有助于选择合适的模型架构或设计新的改进方案。

通俗解释： LLM架构的演进就像是汽车技术的发展：早期模型（如GPT）如同基础款汽车，功能齐全但效率有限；新一代模型（如Llama3）则像是混合动力车，通过多种技术优化实现更高的效率和性能。每种架构都有其设计理念和适用场景，没有绝对的"最好"，只有最适合特定需求的选择。

实践Tips：

比较不同架构在相同硬件上的性能和效率
尝试将一种架构的技术（如RoPE）迁移到另一种架构中
分析架构选择如何影响模型在不同任务上的表现

架构演进时间线

2017年：Transformer论文发表，提出注意力机制
2018年：GPT发布，采用Transformer解码器架构
2019年：GPT-2发布，扩大模型规模，展示零样本能力
2020年：GPT-3发布，参数量达1750亿，引入少样本学习
2021年：LLaMA发布，采用RoPE和SwiGLU，注重效率
2022年：ChatGPT发布，结合RLHF技术，大幅提升对话能力
2023年：Llama 2发布，优化预训练和微调流程
2024年：Llama 3发布，引入GQA和改进的分词器

通过这个时间线可以看出，LLM架构在保持Transformer核心的同时，不断优化效率、可扩展性和任务适应性，推动了自然语言处理技术的快速发展。

总结

本文通过三大模块九个核心技术点，全面解析了LLM的架构设计原理和工程实践方法。从基础的Transformer解码器架构，到核心的注意力机制和位置编码，再到工程化的训练与推理策略，每个技术点都包含原理拆解、代码关联和实践价值三要素，形成完整的知识体系。

要深入实践这些技术，建议克隆项目仓库并按照说明配置环境：

git clone https://gitcode.com/gh_mirrors/ll/llms-from-scratch-cn
cd llms-from-scratch-cn

通过动手修改代码、调整参数和可视化结果，你将逐步构建对LLM的直观理解和实践经验。无论是研究改进架构，还是应用现有模型解决实际问题，这些基础知识都将成为你的重要资产。

LLM技术仍在快速发展，新的架构和优化方法不断涌现。掌握本文介绍的核心原理，将帮助你更好地理解和评估新的技术进展，在快速变化的领域中保持竞争力。

llms-from-scratch-cn

仅需Python基础，从0构建大语言模型；从0逐步构建GLM4\Llama3\RWKV6，深入理解大模型原理

项目地址：https://gitcode.com/gh_mirrors/ll/llms-from-scratch-cn

登录后查看全文

项目优选

收起

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

425

376

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.65 K

970

9个核心架构解析：LLM从原理到实践的技术演进

学习路径图

一、基础原理篇

1.1 Transformer解码器架构：自回归生成的核心引擎

1.2 词嵌入与位置编码协同机制：序列理解的基础

1.3 注意力缩放机制：稳定训练的关键设计

二、核心组件篇

2.1 多头注意力机制：并行捕捉多维度关系

2.2 RoPE位置编码：相对位置信息的高效表达

2.3 前馈网络与SwiGLU激活：非线性变换的艺术

2.4 层归一化与残差连接：深度网络的稳定器

三、工程实践篇

3.1 预训练与微调两阶段策略：从通用到专用的模型进化

3.2 高效推理技术：KVCache与量化优化

3.3 架构对比：主流LLM的技术演进

架构演进时间线

总结

相关内容推荐

最新内容推荐

项目优选