# 线性回归

# 基本概念

线性回归是最简单且应用最广泛的回归算法,它假设特征和目标之间存在线性关系。这种算法通过找到一条最佳拟合线来预测连续型目标变量。

# 数学原理

# 1. 模型表达式

y=wx+by = wx + b 其中:

  • y 是预测值
  • x 是特征值
  • w 是权重(斜率)
  • b 是偏置(截距)

# 2. 损失函数

均方误差(MSE)是线性回归最常用的损失函数:

MSE=1ni=1n(yiy^i)2MSE = \frac{1}{n} \sum_{i=1}^{n}(y_i - \hat{y}_i)^2

其中:

  • n 是样本数量
  • y_i 是实际值
  • ŷ_i 是预测值

# 3. 参数估计

# 最小二乘法

通过最小化均方误差来求解参数:

w=(XTX)1XTyb=y¯wx¯\begin{aligned} w &= (X^TX)^{-1}X^Ty \\ b &= \bar{y} - w\bar{x} \end{aligned}

# 梯度下降法

迭代更新参数:

w=wαMSEwb=bαMSEb\begin{aligned} w &= w - \alpha \frac{\partial MSE}{\partial w} \\ b &= b - \alpha \frac{\partial MSE}{\partial b} \end{aligned}

# 应用场景

  1. 房价预测:根据房屋面积、位置等特征预测房屋价格
  2. 销售预测:根据广告投入预测销售额
  3. 温度预测:根据历史数据预测未来温度
  4. 工资预测:根据工作年限预测工资水平

# 优缺点

# 优点

  • 模型简单,易于理解和实现
  • 计算速度快
  • 可解释性强

# 缺点

  • 假设特征和目标之间是线性关系
  • 对异常值敏感
  • 特征间不能存在严重的多重共线性

# 实践建议

  1. 数据预处理

    • 特征标准化
    • 异常值处理
    • 缺失值处理
  2. 模型评估

    • 使用均方误差(MSE)
    • 使用决定系数(R²)
    • 进行残差分析
  3. 模型优化

    • 特征选择
    • 正则化处理
    • 交叉验证