在《我最想要的excel数据分析书》这本书第三章拟定办公用品的营销战略中,对excel表中的数据进行多元回归分析,其最终输出结果如下:

输出结果共有三个表: 回归统计表,方差分析表,回归参数表。


回归统计表

  • Multiple R:相关系数R,值在-1与1之间,越接近-1,代表越高的负相关,反之,代表越高的正相关关系。绝对值越靠近1则相关性越强,越靠近0则相关性越弱。表中R = 0.818405384
  • R Square:测定系数,也叫拟合优度。是相关系数R的平方,这个值在0~1之间,值越大,代表回归模型与实际数据的拟合程度越高。图中R Square = $R^2$ = 0.669787372

  • Adjusted R Square:校正的测定系数,是调整后的R square,作用是说明自变量能说明因变量百分比,图中该值为0.652953003,即说明自变量能说明因变量y的65.2953003%,因变量y的34.7046997%要由其他因素来解释。通常一元回归的时候看R Square多,而多元回归时候看Adjusted R Square多;

Adjusted R Square的计算公式为:$$R_a = 1- \frac{(n-1)(1-R^2)}{n-m-1}$$
式中n为样本数,m为变量数,$R^2$为测定系数。表中的样本数n为269(即观测值),变量数m为13,测定系数为0.669787372

  • 标准误差:这个与测定系数一样都能描述回归模型与实际数据的拟合程度,它代表的是实际值与回归线的距离。此值越小,说明拟合程度越好;表中为911433.9209。

标准误差的计算公式:$$标准误差=\sqrt{\frac{1}{n-m-1}×SS_e}$$
式中n为样本数,m为变量数。$SS_e$为剩余平方和,$SS_e$等于方差分析表中的SS残差,值为2.12E+14

  • 观测值:用于估计回归方程的样本数据有多少个。表中为269。

方差分析表

  • 第二列df对应的是自由度,表示以样本来估计总体时,样本中独立或能自由变化的个数。自由度第一行是回归自由度dfr,它等于变量数目,即dfr=m;第二行是残差自由度dfe,等于样本数目减去变量数目再减1,即dfe=n-m-1;第三行是总自由度dft,等于样本数目减1,即dft=n-1。表中变量数目m=13,因此回归自由度dfr=m=13,残差自由度dfe=n-m-1=269-13-1=255,总自由度dft=n-1=268。

  • 第三列SS对应的是误差平方和,第一行为回归平方和$SS_r$,它表征的是因变量的预测值对其平均值的总偏差。第二行为剩余平方和$SS_e$(也称为残差平方和),它表征的是因变量对其预测值的总偏差,这个数值越大,意味着拟合的效果越差。第三行为总平方和$SS_t$,它表示的是因变量对其平均值的总偏差。有$SS_t=SS_r+SS_e$,而测定系数就是回归平方和在总平方和中所占的比重,即$R^2=\frac{SS_r}{SS_t}$,测定系数越大,拟合的效果也就越好。

  • 第四列MS对应的是均方差,它是误差平方和除以相应的自由度得到的商。第一行是回归均方差$MS_r$,有$MS_r=\frac{SS_r}{dfr}$。第二行是残差均方差MSe,有$MSe=\frac{SS_e}{dfe}$,这个值越小,拟合效果越好。

  • 第五列对应的是F值,用于线性关系的判定。$F=\frac{回归分析MS_r}{残差MS_e}$。

  • 第六列对应的是Significance F,是在显著性水平下的$F_α$临界值,即F检验的P值,这个值一般要小于0.05的,且越小越好,这是因为$P$代表模型为假的概率,$1-P$代表模型为真的概率。

回归参数表

  • 第二列Coefficients对应模型的回归系数,包括截距Intercept(=-1112841.777)和各个变量的斜率
  • 第三列是回归系数的标准误差,误差值越小,表明参数的精确度越高。
  • 第四列t Stat对应的是T检验中统计量t值,用于对模型参数的检验,需要查表才能决定。t值是回归系数与其标准误差的比值。
  • 第五列P-value对应的是参数的P值,T检验对应的P值,当P<0.05时,可以认为模型在α=0.05的水平上显著,或者置信度达到95%;当P<0.01时,可以认为模型在α=0.01的水平上显著,或者置信度达到99%;
  • 后面几列Lower 95% - Upper 95%,下限-上限表示95%置信区间的上下限值。比如,在α=0.05的显著水平上,截距的变化范围$-2586828.673<Intercept<361145.1199$。