深度学习基础与 Transformer 架构
最近为了更好地理解 LLM,我重新系统地学习了深度学习的基础知识,重点复现了 Transformer 的结构。
核心概念:自注意力
自注意力机制是 Transformer 的灵魂。它的核心公式如下:
Attention(Q, K, V) = softmax((QK^T) / sqrt(d_k)) V
通俗理解
想象你在读一个句子。当你读到某个词(Query)时,你会不自觉地回看句子中的其他词(Keys),并根据它们与当前词的相关性,来聚合这些词的信息(Values),从而更好地理解当前词的含义。
多头注意力
多头注意力机制允许模型在不同的“子空间”里学习关注点。比如一个 Head 关注语法结构,另一个 Head 关注语义指代。
实践心得
在使用 PyTorch 实现 Transformer 时,最容易出错的地方是掩码的处理。
- 填充掩码: 忽略输入序列中的填充部分。
- 前瞻掩码: 在解码器中,防止当前位置看到未来的信息。
推荐资源
- The Illustrated Transformer - Jay Alammar 的神作,图解非常清晰。
- Andrej Karpathy 的 NanoGPT - 从零手写 GPT,非常适合代码级学习。