# 位置编码

# 直观理解

在自然语言中，词序对于理解句子含义至关重要。位置编码就像是给序列中的每个词添加了一个独特的时间戳，让模型知道每个词出现的位置。想象一个故事，如果把所有句子打乱顺序，故事就失去了原有的意义。位置编码正是帮助模型理解这种序列顺序的关键组件。

# 技术原理

# 1. 正弦位置编码

Transformer使用正弦和余弦函数的组合来生成位置编码，这种方式有几个重要的特性：

可以处理任意长度的序列
位置编码的值域有界
容易计算相对位置信息

# 2. 编码维度

位置编码的维度与词嵌入维度相同（d_model），这样可以直接将位置信息加到词嵌入上。每个位置pos的编码是一个d_model维的向量，其中：

偶数维度使用正弦函数
奇数维度使用余弦函数

# 数学表达

# 1. 位置编码公式

对于位置pos和维度i，位置编码PE计算如下：

$PE_{(pos,2i)} = sin(pos/10000^{2i/d_{model}})$

$PE_{(pos,2i+1)} = cos(pos/10000^{2i/d_{model}})$

其中：

pos是词在序列中的位置（0-based）
i是维度的索引（对于d_model维度，i的范围是[0, d_model/2)）
10000是一个经验值，用于控制波长的变化

# 2. 相对位置计算

通过三角函数的性质，可以计算任意两个位置之间的相对关系：

$PE_{pos+k} = f(PE_{pos})$

这个特性使得模型能够学习位置之间的相对关系。

# 实现细节

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_seq_length=5000):
        super().__init__()
        
        # 创建位置编码矩阵
        pe = torch.zeros(max_seq_length, d_model)
        position = torch.arange(0, max_seq_length, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        
        # 计算正弦和余弦位置编码
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        
        # 添加batch维度并注册为buffer
        pe = pe.unsqueeze(0)
        self.register_buffer('pe', pe)
        
    def forward(self, x):
        # x: [batch_size, seq_length, d_model]
        return x + self.pe[:, :x.size(1)]

# 变体与改进

# 1. 可学习的位置编码

除了固定的正弦位置编码，还可以使用可学习的位置嵌入：

class LearnablePositionalEncoding(nn.Module):
    def __init__(self, d_model, max_seq_length):
        super().__init__()
        self.position_embeddings = nn.Parameter(torch.randn(max_seq_length, d_model))
        
    def forward(self, x):
        return x + self.position_embeddings[:x.size(1)]

# 2. 相对位置编码

相对位置编码直接对注意力计算中的位置关系进行建模：

$Attention(Q, K, V) = softmax(\frac{QK^T + R}{\sqrt{d_k}})V$

其中R是相对位置关系矩阵。

# 注意事项

序列长度限制
- 预定义的最大序列长度要足够大
- 考虑使用插值等方法处理超长序列
位置编码的尺度
- 位置编码的幅度不应过大或过小
- 可以通过缩放因子调节
位置信息的注入时机
- 可以在词嵌入后直接加入
- 也可以在每个注意力层后添加

# 优化技巧

动态序列长度
- 使用padding mask处理变长序列
- 根据实际序列长度裁剪位置编码
计算效率
- 预计算并缓存位置编码
- 使用向量化操作加速计算
模型适应性
- 针对特定任务选择合适的位置编码方案
- 考虑任务特点进行位置编码的改进

← 输入编码自注意力机制 →