Transformer 架构:LLM 的引擎
"Transformer 是第一个完全依赖注意力机制的序列转导模型。" — Vaswani 等人 (2017)
要通过 LLM 面试,仅仅知道"它使用了注意力机制"是不够的。你必须理解为什么做出特定的设计选择(Pre-Norm vs Post-Norm、SwiGLU vs ReLU、GQA vs MHA、MoE vs Dense)以及块内部的数学运算。
1. 整体架构概览
现代的 Decoder-Only Transformer(如 GPT-4 或 Llama 3)由一堆相同的块组成。每个块有两个主要子层:
- 多头自注意力(MHA):在 token 之间混合信息。
- 前馈网络(FFN):在每个 token 内独立处理信息。
关键是,它们被残差连接和层归一化包裹。
2025 年演进:
- FFN → MoE:许多模型现在在前馈层使用混合专家(Mixture-of-Experts)
- MHA → GQA:分组查询注意力减少 KV 缓存内存
- 标准 → 混合