# LoRA微调（Low-Rank Adaptation）

# 直观理解

LoRA就像是给模型装上一个轻量级的"调节器"。想象一个音响系统，我们不需要更换整个系统，只需要添加一个小型均衡器就能调节声音效果。LoRA正是这样，通过添加少量可训练的参数来调整模型的行为。

# 技术原理

# 1. 低秩分解

LoRA的核心思想：

冻结预训练权重
注入低秩矩阵
参数高效更新

# 2. 参数计算

对于原始权重矩阵 $W \in \mathbb{R}^{d\times k}$ ，LoRA通过以下方式进行分解：

$W = W_0 + \Delta W = W_0 + BA$

其中：

$W_0$ 是冻结的预训练权重
$B \in \mathbb{R}^{d\times r}$
$A \in \mathbb{R}^{r\times k}$
$r$ 是秩的大小，通常 $r \ll \min(d,k)$

# 数学推导

# 1. 前向传播

对于输入 $x$ ，LoRA的计算过程为：

$h = xW = x(W_0 + BA) = xW_0 + x(BA)$

其中：

$x$ 是输入向量
$h$ 是输出向量
$xW_0$ 是原始变换
$x(BA)$ 是低秩适应

# 2. 缩放策略

实际实现中会添加缩放因子 $\alpha$ ：

$h = xW_0 + \frac{\alpha}{r}x(BA)$

# 实现细节

class LoRALayer(nn.Module):
    def __init__(self, in_features, out_features, rank=8, alpha=32):
        super().__init__()
        self.rank = rank
        self.scaling = alpha / rank
        
        # 低秩矩阵
        self.A = nn.Parameter(torch.zeros(in_features, rank))
        self.B = nn.Parameter(torch.zeros(rank, out_features))
        
        # 初始化
        nn.init.kaiming_uniform_(self.A, a=math.sqrt(5))
        nn.init.zeros_(self.B)
        
    def forward(self, x):
        # 原始权重的前向传播
        base_output = x @ self.weight
        
        # LoRA适应
        lora_output = (x @ self.A @ self.B) * self.scaling
        
        return base_output + lora_output

# 优化技巧

# 1. 训练策略

目标层选择
- 注意力层
- 前馈层
- 输出层
超参数调优
- 秩的大小
- 缩放因子
- 学习率

# 2. 内存优化

梯度检查点
- 减少显存占用
- 权衡计算速度
混合精度训练
- FP16计算
- 显存效率

# 应用场景

资源受限环境
- 边缘设备
- 移动端部署
快速适应
- 领域迁移
- 个性化定制

# 注意事项

模型选择
- 基模型质量
- 适配性验证
训练监控
- 收敛速度
- 性能对比
- 资源消耗
部署考虑
- 模型合并
- 推理加速
- 版本控制

← 全参数微调（Full Parameter Fine-tuning） Prompt Tuning（提示学习） →