Neon Blog

Blue · Purple · Universe UI

首页 API GitHub

学习笔记：深度学习基础与 Transformer 架构

2023-12-20

深度学习基础与 Transformer 架构

最近为了更好地理解 LLM，我重新系统地学习了深度学习的基础知识，重点复现了 Transformer 的结构。

核心概念：自注意力

自注意力机制是 Transformer 的灵魂。它的核心公式如下：

Attention(Q, K, V) = softmax((QK^T) / sqrt(d_k)) V

通俗理解

想象你在读一个句子。当你读到某个词（Query）时，你会不自觉地回看句子中的其他词（Keys），并根据它们与当前词的相关性，来聚合这些词的信息（Values），从而更好地理解当前词的含义。

多头注意力

多头注意力机制允许模型在不同的“子空间”里学习关注点。比如一个 Head 关注语法结构，另一个 Head 关注语义指代。

实践心得

在使用 PyTorch 实现 Transformer 时，最容易出错的地方是掩码的处理。

填充掩码: 忽略输入序列中的填充部分。
前瞻掩码: 在解码器中，防止当前位置看到未来的信息。

推荐资源

The Illustrated Transformer - Jay Alammar 的神作，图解非常清晰。
Andrej Karpathy 的 NanoGPT - 从零手写 GPT，非常适合代码级学习。