# 掩码语言建模（Masked Language Modeling）

# 直观理解

掩码语言建模就像是在做完形填空练习。想象一本书中某些词被遮住了，我们需要根据上下文来猜测这些被遮住的词。这种训练方式能够让模型学会理解词语之间的关系，掌握语言的内在规律。

# 技术原理

# 1. 掩码策略

掩码语言建模采用以下策略处理输入文本：

随机选择15%的词元进行掩码
被选中的词元中：
- 80%替换为[MASK]标记
- 10%随机替换为其他词
- 10%保持不变

# 2. 训练目标

模型需要准确预测被掩码的词元，这个过程可以表示为：

$L_{MLM} = -\sum_{i\in M} \log P(x_i|\hat{x})$

其中：

$M$ 是被掩码的位置集合
$x_i$ 是原始词元
$\hat{x}$ 是包含掩码的输入序列

# 数学推导

# 1. 概率计算

对于每个被掩码的位置，模型输出一个概率分布：

$P(x_i|\hat{x}) = softmax(W_o h_i + b_o)$

其中：

$h_i$ 是Transformer最后一层对应位置的隐藏状态
$W_o$ 和 $b_o$ 是输出层的参数

# 2. 损失函数

单个位置的损失： $l_i = -\log P(x_i|\hat{x})$
总体损失： $L = \frac{1}{|M|} \sum_{i\in M} l_i$

# 实现细节

class MaskedLanguageModel(nn.Module):
    def __init__(self, vocab_size, hidden_size):
        super().__init__()
        self.dense = nn.Linear(hidden_size, hidden_size)
        self.activation = nn.GELU()
        self.layer_norm = nn.LayerNorm(hidden_size)
        self.decoder = nn.Linear(hidden_size, vocab_size)
        
    def forward(self, hidden_states, masked_positions):
        # 获取掩码位置的隐藏状态
        sequence_output = self.dense(hidden_states)
        sequence_output = self.activation(sequence_output)
        sequence_output = self.layer_norm(sequence_output)
        
        # 预测掩码位置的词
        prediction_scores = self.decoder(sequence_output)
        masked_scores = prediction_scores[masked_positions]
        
        return masked_scores

# 优化技巧

# 1. 动态掩码

训练时动态生成掩码
- 每个epoch使用不同的掩码
- 增加模型见到的样本数量
掩码策略优化
- 考虑词的重要性
- 保持词的完整性

# 2. 训练效率

批处理优化
- 合理设置序列长度
- 优化内存使用
负采样策略
- 选择合适的负样本
- 提高训练效果

# 应用场景

语言理解任务
- 文本分类
- 命名实体识别
- 情感分析
文本生成
- 文本填充
- 缺失内容补全
- 语法纠错

# 注意事项

掩码比例选择
- 过高影响上下文理解
- 过低减少学习机会
序列长度限制
- 考虑计算资源
- 平衡效果和效率
预处理质量
- 合理的分词策略
- 清洗训练数据

← 预训练模型下一句预测（Next Sentence Prediction） →