本节主要介绍回归分析,并将其视为上一章正交投影的应用案例。首先从简单线性回归入手,探讨如何找到一条直线尽可能贴近所有数据点,并强调了量化 “尽可能贴近” 的重要性,通过误差来量化。随后,介绍了真实值和预测值之间的误差,即残差项。通过线性代数,将误差计算转化为向量运算,并利用正交投影的概念,将 Y 向量投影到由全一列向量和 X1 构成的平面上,使误差向量垂直于该平面。在此基础上,逐步深入到二元、多元线性回归以及多项式回归,探讨了如何使用多项式拟合非线性数据,并通过引入更高次幂的人造特征进行拟合,同时警告了过度拟合的风险。
Outlines
Part 1: 回归分析基础与误差量化
Part 2: 正交投影与最小二乘法推导
Part 3: 多元线性回归与计算优化
Part 4: 多项式回归与模型评估
Sign in to continue reading, translating and more.
Open full episode in Podwise