
本节主要介绍回归分析,并将其视为上一章正交投影的应用案例。首先从简单线性回归入手,探讨如何找到一条直线尽可能贴近所有数据点,并强调了量化 “尽可能贴近” 的重要性,通过误差来量化。随后,介绍了真实值和预测值之间的误差,即残差项。通过线性代数,将误差计算转化为向量运算,并利用正交投影的概念,将 Y 向量投影到由全一列向量和 X1 构成的平面上,使误差向量垂直于该平面。在此基础上,逐步深入到二元、多元线性回归以及多项式回归,探讨了如何使用多项式拟合非线性数据,并通过引入更高次幂的人造特征进行拟合,同时警告了过度拟合的风险。
Sign in to continue reading, translating and more.
Continue