线性回归的计算公式主要分为一元线性回归和多元线性回归两种。
一元线性回归
对于一元线性回归,其计算公式如下:
斜率 m
\[
m = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}
\]
其中,\( n \) 是样本数量,\( \sum xy \) 是所有预测变量与随机误差的乘积之和,\( \sum x \) 和 \( \sum y \) 分别是预测变量和随机误差的和,\( \sum x^2 \) 是预测变量的平方和。
截距 b
\[
b = \frac{\sum y - m\sum x}{n}
\]
多元线性回归
对于多元线性回归,其计算公式如下:
斜率 w (权重):\[
w = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}
\]
其中,\( x_i \) 和 \( y_i \) 分别是第 \( i \) 个样本的预测变量和随机误差,\( \bar{x} \) 和 \( \bar{y} \) 分别是预测变量和随机误差的平均值。
截距 b
(偏置):
\[
b = \bar{y} - w\bar{x}
\]
示例
假设我们有一组数据 \( (x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) \),则一元线性回归的斜率 \( m \) 和截距 \( b \) 可以通过以下公式计算:
计算斜率 m
\[
m = \frac{n\sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n\sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2}
\]
计算截距 b
\[
b = \frac{\sum_{i=1}^{n} y_i - m\sum_{i=1}^{n} x_i}{n}
\]
注意事项
在实际应用中,为了简化计算,有时会对公式进行变形,例如将公式写作 \( y = w_0 + w_1 x \) 的形式,其中 \( w_0 \) 是截距,\( w_1 \) 是斜率。
在多元线性回归中,还可以引入正则化项(如岭回归或LASSO回归)来防止过拟合。